基于语义理解的论文相似度研究现状及进展

2013年04月09日 | 来源: PassPaper | 分类: 学术观察

摘自《基于语义理解的论文相似度研究》 作者:唐凌志(湘潭大学)
  
   目前,根据各个领域的发展要求,解决其相关领域中所碰到的信息处理问题,为更好的挖掘出信息内在的规律,国内外学者借鉴了相似度来进行信息的处理,对其进行了相关的应用研究,为了了解其发展现状,在这里主要是对文本相似度与语义相似度进行一个简单的概述。
  
   1.文本相似度研究
  
   文本相似度是表示两个或者多个文本之间匹配程度的一个度量参数,其相似度主要表现在字面重复度上,是一项基础而系统的工程。就目前的文本相似度研究现状来看,文本相似度计算方法大概分为两种[1]:一是基于统计的方法;二是基于距离的方法。基于统计的方法主要在句子以上的文本相似度计算(段落以上)中应用比较广泛并取得较好的效果;而基于距离的方法主要在词、组块、句子的相似度计算中得到广泛应用,占据主要地位。
  
   (1) 词语相似度研究现状。目前,文本相似度研究多数是以词语相似度研究为基础,国内外学者对词语相似度进行了大量的研究,提出了很多成熟的计算方法,比如国内学者提出的基于汉明距离计算方法[2]、基于属性论的计算方法[3]、基于部件的计算方法[4]、基于本体的计算方法[5]、基于词共线的计算方法[6]与基于事件的计算方法[7];国外学者提出的基于向量空间模型的计算方法[8]、基于搜索引擎的方法[9]、基于构成字符的相似度计算方法[10]、基于词典注释的方法、基于Word-Net等词典的计算方法和基于大规模语料库统计的方法。上述的方法可以看出在词语相似度计算层面上其算法已经比较成熟,其研究在自然语言处理、机器翻译、数据挖掘、文本聚类、信息检索、信息过滤等领域已经得到广泛的实际应有。
  
   (2) 句子相似度研究现状。对句子的相似度研究主要偏向于国外学者,句子基本上是英文字母构成,因此大部分句子相似度研究主要是针对字符串的相似度计算,如基于编辑距离以及其扩展算法的相似串模糊匹配[11]算法;MCWPA字4符串快速比较算法[10]以及LCS算法[12];而在国内,由于汉语本身的特点,词语、句子、段落之间的结构非常复杂,因此对汉语句子的相似度计算主要是以词语为基础进行的,通过词语相似度的加权组合得到句子相似度,比如金博等人在词汇相似度的基础上,通过对句子进行分词得到不同的词性集合,进而为不同词性的词赋予与之对应的权重来综合计算其句子的相似度[13];李伟等人通过提取关键句中的关键词用于计算其句子相似度方法[14];李素建提出的基于《知网》与《同义词词林》,提出了引入语句相关性的定量计算模型[15];吕学强等在计算相似度时加入词序相似度和词形相似度两个影响因子,提出了句子相似模型,并根据其模型进一步提出了最相似句子的查找算法[16];郭庆琳、李艳梅等人在传统的DF算法与TD-IDF算法进行了改进,一方面通过增加关键词的方法弥补对个别有用信息的过滤不足(TD算法);另一方面利用特征项的权重对TD-IDF方法进行加权处理,提高了相似度计算的精确度[17];郭武斌、周宽久等人针对传统向量空间模型对文本相似度的计算未考虑词序导致偏差问题,提出了使用马尔科夫模型的形态转换矩阵、两个文本的最长公共子序列以及他们的所有公共字串信息来描述词序信息,并以此提出了一种将马尔科夫转移矩阵、最长公共子串、公共子序列和TF-IDF相结合,兼顾词序和词频信息的文本相似度计算方法[18]。
  
   (3) 段落及段落以上形式相似度研究现状。从目前的研究现状来看,由于段落及段落以上的文本结构复杂,涉及到段落的分句处理,段落的语法结构,文本的特征提取,加之文本的数量规模大,因此对段落以及段落以上的文本相似度计算研究相对比较少。但是在国内研究的学者还是存在,如游春晖[19]对文本相似度的研究,通过对基于语料库、基于词典的文本相似度研究与基于《知网》的语义相似度研究的分析处理,通过权衡选择了基于《知网》的语义相似度研究,并把语义理解的情感倾向引入到文本相似度的计算当中,对句子、段落及段落以上文本进行了相似度计算。
  
   2.语义相似度研究
  
   语义相似度是到目前为止还没有一个统一的定义,其主观性相当强,不能脱离具体的应用环境来分析其语义相似度。因为词语之间的关系非常复杂,涉及到词语的相关度、词语的语法等关系,很难用一个简单的数值来明确的衡量他们之间的相似或差异之处,在具体的语境中,从这个角度看来非常相似的词语,但是从其它角度来看同样的词语,很可能差异非常大。刘群等对语义相似度的定义是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度[20]。对于语义相似度的计算,国内外学者进行了大量的研究,国外的研究起步比较早,国内对语义相似度研究比较缓慢,国内外对语义相似度的研究策略大致可以分为两类:
  
   (1) 基于语义网络的语义相似度:主要是利用Word-Net[21]、How-Net[22]等语义词典中的同义词或义原组成的树状层次体系结构来计算相似度,计算模型包括基于语义距离[23]、基于信息量[24]和基于属性[25]等。基于语义距离,主要是通过计算概念在树状层次体系结构中的语义距离来计算语义相似度。该模型简单、直观、但是过度依赖层次网络,并且没有考虑影响语义距离的其它多种因素;基于信息量,主要通过两个概念共同祖先的最大的信息量,来衡量它们的语义相似度。在此模型中信息论和概率论的相关知识得到充分利用,但是该模型多用于树状结构,并且不能细致区分语义差别。
  
   (2) 利用大规模语料库的语义相似度:在此类方法中主要是利用两种方法来计算语义相似度,第一种方法通过统计其两个不同的概念在上下文中出现的频率,以频率为基础来计算语义相似度[26];第二种方法通过计算概念相关性来计算其相似度[27]。该模型比较直观,比较注重概念之间的关系,但是概念的相关性判断比较依赖人的主观性。具体而言,徐德智,吴健等人提出通过计算两个不同的概念在语义层次树中的语义距离,以距离来衡量与计算两个概念间的语义相似度[28];WongAK Y,Pay P等人提出根据每个子概念的贡献赋予其对应的权重,在每一个概念中,其所有子概念的权重和应该为1,最后综合计算子概念间的相似度与其权重的线性之和,即可得出其相应概念的语义相似度[29];Doan AH,Madhavan J等人以联合分布概率统计的方法来计算其概念之间的语义相似度[30];Higgins D利用搜索引擎作为语料库,通过其来计算概念间的语义相似度[31];贾可亮、樊孝忠等人进行的运用《知网》中的语义相似度计算进行FAQ研究,通过基于《知网》的语义相似度计算出用户问句与《知网》中的候选句之间的相似度,从《知网》中找出最相似的问句,从而将相应的答案返回给用户,通过汉语句子的相似度计算大大的提高了问句匹配的准确率[22]。为了提高相似度的准确性,各位学者在算法与模型上做了很大的努力,提出了多种多样的算法与模型,其关注点从简单的字面意义上的相似度,逐步上升到语义的角度,充分考虑到语义、语法、词性、词法以及词间的结构关系。因此,未来的相似度研究必须要上升到语义相似度的层次,本文通过权衡借鉴《知网》的研究,从《知网》中词语相似度算法开始,进而扩展到句子相似度算法、段落相似度算法、论文相似度算法,进而应用到论文检测。
  
   3. 文本相似度的概念
  
   在信息化社会中,信息主要是以文本信息的形式存在,如何处理这些文本信息以得出其潜在的、有意义的、有价值的信息,以协助在各个领域的应用推广,从当前的研究现状来看,文本相似度研究提供了一种文本信息处理的方法,在很多领域已经得到实际应用,因此很有必要了解文本相似度。
  
   文本相似度的概念非常复杂,涉及到语言、语法结构、语句结构等多种因素,目前还没有一个统一的定义,但是在哲学、信息理论与语义学当中被学者广泛讨论。词语是汉语的基本组成部分,是最基本的语法与语义单位,词语相似度主观性相当强,不能脱离具体的应用环境去谈论词语相似度,词语之间的关系是非常复杂的,不能简单的用一个数值来判断他们之间的相似度。同理,句子相似度,段落相似度及段落以上文本相似度都是以人的主观占主导地位的概念,不能单一的谈论其相似度,应结合具体的应用背景。词语是句子重要的组成部分,而段落是由多个句子组成,文本是多个段落有机组合而来,因此文本相似度研究都是以词语相似度的研究为基础进行的,词语相似度研究是句子相似度的基础,句子相似度研究是段落相似度研究的基础,这样按层次依次进行。
  
   具体而言,结合具体的应用背景,在论文检测中,文本相似度就是度量两个或多个文本之间匹配程度的一个数值,这里的相似度比较注重字面意义上的相似度,忽略了语义、语法及结构方面的相似度,其相似度在[0,1]之间取实数值。
  
   如果两个文本在结构上完全相似,则相似度值为1;如果两个文本在结构上完全不同,则相似度值为0;如果相似度值大,接近1,表明两个文本越来越相似,其相似度高;如果相似度值少,接近于0,表明两个文本越来越不相关,其相似度低。从概念中可以了解到文本相似度研究的重要性,文本相似度的有效计算是进行信息处理的关键。目前,有多种文本相似度模型与算法被提出,但它们大多是根据具体应用环境的独有特点,凭借多年来的经验累积性知识来进行建模的。
  
   4.文本相似度的计算原则
  
   文本相似度计算是指充分利用计算机自动计算的能力,通过相似系数、相似距离等尺度来衡量文本之间的相似度,这里主要是指文本相似度计算的公式、算法或者是模型。文本相似度研究它只适合特定的领域,不同的领域考虑的因素,计算的原则都是不一样的,因此其算法也是不一样的。
  
   (1) 明确应用目的:文本相似度研究主要是应用于那一模块,是要达到一个什么目的,因此在进行研究之前要进行调研,比如在文本文类,文本聚类领域,文本相似度研究主要是解决文本归类的问题;但是在数字图书馆领域,像中国知网数据库和万方数据的数字图书馆,其研究的功能主要是找出与当前文献内容类似的文献,这种提供相似文献的方法是通过计算文本之间的相似度来判定的。
  
   (2) 要明确思想,循序渐进:分析其文本相似度研究的实际问题,找出本质规律,用数学语言进行描述,确定问题所涉及的一些变量,了解其变量之间的关系,根据问题提出假设,并将问题所涉及的变量用公式,图表,符号表示出来,用数学推导形成数据模型,在此基础上通过统计学跟数据分析来检验和修正模型,验证文本相似度。
  
   (3) 选择一个适用的模型:文本相似度研究在多个领域都有应用,但是个不同的领域的文本相似度研究模型跟算法是不同的,要建立一个实用的数据模型,必须要把握研究领域的本质和规律,以便在此规律上面建立公式及模型,模型尽可能简单明了,便于操作及管理,模型最重要的是要经得起实践的检验,同时做到有代表性的推广。
  
   (4) 确定一个相似度标准:两个文本之间是否相似是需要一个判断标准的,在判断中可以设定一个阈值来检验文本相似度计算结果,其结果应该也是一个量化的过程,可以假定如果计算结果大于或者等于阈值,则判定两个文本是相似的,少于则判定其不相似。由于阈值是一个数值形式,因此它的选择没有一个固定的模式,根据其标准灵活的选择,也可以根据其系统的需要进行精度设置,其精度要求越高,相应的阈值就越大。
  
   参考文献:
  
   [1]张玉娟. 基于《知网》的句子相似度计算的研究[D].中国地质大学, 北京大学硕士学位论文, 2006.12
  
   [2]张焕炯,王国胜,钟义信. 基于汉明距离的文本相似度计算.计算机工程与应用, 2001,19(4): 21-22.
  
   [3]潘谦红, 王炬, 史忠植. 基于属性论的文本相似度计算[J].计算机学报, 1999.6, 22(6): 651-655.
  
   [4]程玉柱,邬书跃. 基于部件的文本相似度计算.计算机工程与设计, 2006, 27(18): 3444-3446. [5]荆路. 基于本体的文本相似度研究与实现[D].沈阳工业大学硕士学位论文, 2009.12
  
   [6]曹恬,周丽,张国煊. 一种基于词共线的文本相似度计算.计算机工程与科学, 2007, 29(3): 52-73.
  
   [7]仲兆满,刘宗田,周文,付建峰. 基于事件的文本相似度计算.广西师范大学学报:自然科学 版,2007,27(1): 149-152.
  
   [8]Salton G, Wong A,Yang CS. On the specification of term values in automatic indexing. Journal of Documentation, 1973,29(4):351-371.
  
   [9]熊才全,田浩. 基于PageRank值的文本相似度改进模型.网络安全技术与应用,2010.6: 55-57.
  
   [10]Q X.Yang, S S. Yuan, L.Zhao,et al. Faster Algorithm of String Comparison[J]. Patter Analysis and Application,2003,6(2):122-133.
  
   [11]E S.Ristad, P N. Yianilos. Learning string edit distance[J]. IEEE Transactions on Patter Analysis and Machine Intelligence, 1998, 20(5): 522-532.
  
   [12]F. Tichy, W. The string-to-string correction problem with block moves[J]. ACM Transactions on Computer Systems,1984,2(4):309-312
  
   [13]金博,史彦军,滕弘飞. 基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2): 291-297
  
   [14]李伟,苑春法,黄锦辉,李文捷. 关于关键句矢量模型的文本相似性计算[C]. 20. The international conference on computer processing of oriental languages, Shenyang, 2003.
  
   [15]李素健. 基于语义计算的语句相关度研究[J].计算机工程与应用,2002,38(7): 75-83
  
   [16]吕学强,任飞亮,黄志丹,姚天顺. 句子相似模型和最相似句子查找算法[J].东北大学学报 (自然科学版),2003, 24(6): 531-534.
  
   [17]郭庆琳,李艳梅, 唐琦.基于VSM的文本相似度计算的研究[J].计算机应用与研究, 2008.11.
  
   [18]郭武斌,周宽久,苏振魁. 基于词序方法的文本相似度计算模型.情报学报, 2008.06.
  
   [19]游春晖.基于语义情感倾向的文本相似度研究.电子科技大学硕士学位论文, 2008.5.
  
   [20]刘群,李素健. 基于《知网》的词汇语义相似度计算[C].第三届汉语词汇语义学研讨会.台北:2002, 59-76
  
   [21]李熙,徐德智.基于Word-Net的概念语义相似度研究.湖南科技学院,2008,29(12):115-117. [22]贾可亮,樊孝忠.基于How-Net语义相似度的FAQ研究[J].计算机应用,2007(09): 2256-225751
  
   [23]彭晖,史忠植. 基于本体概念相似度的语义WEB服务匹配算法[J]..计算机工程, 2008, 34(15): 51-53
  
   [24]史斌,王普. 基于本体的概念语义相似度度量[J].计算机工程,2009,35(19): 83-85. [25]刘春辰,刘大有, 王生生. 改进的语义相似度计算模型及应用.吉林大学学报(工学版), 2009, 39(1):119-123
  
   [26]孙海霞, 钱庆. 基于本体的语义相似度计算方法研究综述.知识组织与知识管理, 2010, 188(1):51-55
  
   [27]Jiang J, Conrath D.Semantic Similarity Based on Corpus Statistics and Lexical Taxonomy[C]. Proceedings of International Conference Research on Computational Linguistics, 1997:19–33
  
   [28]徐德智,王怀民. 基于本体的概念间语义相似度计算方法研究[J].计算机工程与应用,2007, 43(8).
  
   [29]Wong A K Y, Ray P, Waran N P. Ontology Mapping for the Interoperability Problem in Network Management[J]. IEEE Journal on Selected Areasin Communication, 2005,23(10): 2058-2068.
  
   [30]Doan A H, Madhavan J, Domingos P. Learning to Map Between Ontologies on the Semantic Web[C]//Proceedings of the 11th International Conference on World Wide Web, New York, USA.ACM Press, 2002: 662-673.
  
   [31]Higgins D. Which Statistics Reflect Semantic Rerhinking Synonymy and Word Similarity[C]//Proc.of International Conference on Linguistic Evidence. 2004.
  
   注册PassPaper论文通行证:http://www.passpaper.org