[发明专利]一种文档相关度计算系统和方法有效
| 申请号: | 200610036094.3 | 申请日: | 2006-06-19 |
| 公开(公告)号: | CN101079025A | 公开(公告)日: | 2007-11-28 |
| 发明(设计)人: | 丁江伟 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
| 代理公司: | 深圳市顺天达专利商标代理有限公司 | 代理人: | 郭伟刚;蔡晓红 |
| 地址: | 518057广东省深圳市高新科*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文档 相关 计算 系统 方法 | ||
技术领域
本发明涉及网络通信技术,更具体地说,涉及一种文档相关度计算系统和方法。
背景技术
文档相关度是一个0到1之间的小数,表征了两篇文档之间语义上的相关程度。例如,两篇相同文档的相关度为1,而一篇涉及编程技术的文档与一篇涉及政治社会的文档的相关度远小于1、接近于0。计算文档相关度可以应用在很多方面,比如文档的分类聚类、检索相关文章信息等。
目前文档相关度的计算都是基于主题词汇提取技术的:首先通过计算提取出待比较文档的主题词汇,再通过计算主题词汇之间的相关度而得出待比较文档的相关度。
现有的主题提取方法主要有两种。一种是是基于标题的主题提取技术。其方法是:采用文档解析器,解析文档,找出文档的标题,然后将文档中标题的值作为文档的主题思想。但是这种计算方法显然过于简单,无法应用在计算文档相关度中。
另外一种是基于词频的主题提取技术。随着统计自然语言处理技术的发展,按照高词频关键词来标示文档主题的方法得到了广泛的应用,特别是在网页主题的提取中比较常用。具体做法是先将网页源文件去tag标记,然后将文章内容进行分词统计词频,最后按词频对关键词排序,给出前N个高词频作为文章主题。但是由于表义语言发展得很充分,一义多词、一词多义是普遍现象,再加上修辞法的运用使得词汇稀疏现象客观存在,特别是对于网页类的短文章,该算法整体效果不是很理想,从而导致文档相关度的计算不理想。
发明内容
本发明的目的在于针对现有技术的缺陷,提供一种文档相关度计算系统和方法,其基于义元集语义分析技术,同时可消除多义词和词汇稀疏现象对相关度的消极影响。
本发明的技术方案是:一种文档相关度计算系统,包括顺序相连的文档预处理模块和分词模块,所述文档预处理模块的输入为至少一篇待分析文档,所述分词模块的输出为对应所述至少一篇文档的第一词汇表;所述分词模块还具有对切分后的词汇进行词性标注的功能;还包括:在所述分词模块与义元处理模块之间还串联的分词后处理模块,所述分词后处理模块用于根据第一词汇表中词汇的词性,剔除其中的停用词、虚词,得到第二词汇表;义元处理模块,用于对所述第二词汇表中的词汇进行义元标注,形成第三词汇表,确定所述第三词汇表中多义词所对应的多个义元的权重或为多义词确定唯一义元以得到第一义元表,对所述第一义元表中的所有义元计算权重,得到按权重排序的主题语义向量;文档相关度计算模块,其与所述义元处理模块相连,用于对至少两个主题语义向量进行相关度计算。
其中,所述文档预处理模块用于将输入的、不同格式的文档转换为标准格式,并提取文档正文;分词模块用于对所述文档预处理模块的输出进行分词,得到所述第一词汇表。所述义元处理模块包括:义元标注模块,其用于使用义元词典对所述第二词汇表中的词汇进行义元标注,形成第三词汇表;词义消歧模块,其用于确定所述第三词汇表中多义词所对应的多个义元的权重,或为多义词确定唯一义元,得到第一义元表;主题语义向量计算模块,其用于对所述第一义元表中的所有义元计算权重,得到按权重排序的主题语义向量。
作为本发明的一个改进,还包括主题语义向量库,其输入端与所述义元处理模块相连,输出端与所述文档相关度计算模块相连,用于存储所述义元处理模块输出的主题语义向量。所述文档相关度计算模块用于对至少两个主题语义向量进行相关度计算;所述主题语义向量从所述义元处理模块获得,或从所述主题语义向量库中获得,或分别从所述义元处理模块和主题语义向量库中获得。
本发明还提供了一种文档相关度计算方法,包括以下步骤:(a),由文档预处理模块将输入的、不同格式的文档转换为标准格式,并提取文档正文内容;(b),由分词模块对所述文档预处理模块的输出进行分词并对切分后的词汇进行词性标注,得到第一词汇表;由分词后处理模块对所述第一词汇表的词汇进行剔除其中的停用词、虚词处理得到第二词汇表;(c),由义元处理模块对所述第二词汇表中的词汇进行义元标注,形成第三词汇表,并对所述第三词汇表中的词汇进行处理,确定其中多义词所对应的多个义元的权重或为多义词确定唯一义元以得到第一义元表,对所述第一义元表中的所有义元计算权重,得到按权重排序的主题语义向量;(d),由文档相关度计算模块对待分析的至少两篇文档的主题语义向量进行计算,得到所述至少两篇文档的相关度。
其中,步骤(d)中,所述至少两篇文档的主题语义向量从所述义元处理模块获得,或从与所述文档相关度计算模块连接的主题语义向量库中获得,或分别从所述义元处理模块和主题语义向量库中获得。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200610036094.3/2.html,转载请声明来源钻瓜专利网。





