[发明专利]文本相似度获取方法和装置有效
| 申请号: | 201110372083.3 | 申请日: | 2011-11-21 |
| 公开(公告)号: | CN103123618A | 公开(公告)日: | 2013-05-29 |
| 发明(设计)人: | 张雁飞 | 申请(专利权)人: | 北京新媒传信科技有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 权鲜枝 |
| 地址: | 100089 北京市海淀区万*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 相似 获取 方法 装置 | ||
技术领域
本发明涉及文本信息处理技术领域,特别涉及一种文本相似度获取方法和装置,能够广泛应用于信息检索、机器翻译、自动问答系统、网页去重、文本聚类、文本挖掘等领域。
背景技术
随着计算机的广泛应用和互联网的普及,各类信息都在急速地膨胀,给人们带来便利的同时也带来了信息过量的问题。
文本是最重要的信息载体,对文本文档的处理和分析成为当今数据挖掘和信息检索技术的热点之一。文本处理技术中一个基础而关键的问题就是文本相似度的计算。文本相似度计算可以计算一个文本中不同词条的相似度,也可以计算两个文本间的相似度,其广泛应用于文本聚类、信息检索、机器翻译、自动问答系统、文本挖掘、网页去重等领域,长期以来一直是研究的热点和难点。
然而,现有的文本相似度计算方案通常需要关联于文本中词语的顺序性,且计算方法比较复杂,数据计算量较大,性能低下。
发明内容
本发明提供了一种文本相似度获取方法和装置,以解决的现有的文本相似度计算方案与词语顺序相关,计算方法比较复杂,数据计算量较大,性能低下问题。
为达到上述目的,本发明实施例采用了如下技术方案:
本发明实施例提供了一种文本相似度获取方法,该方法包括:
根据预定的停用词规则剔除各文本中的停用词,提取出所述文本的可用词;
计算文本中每一可用词的哈希值;
根据文本中所有可用词的哈希值得到所述文本的相似哈希值;
利用文本的相似哈希值获取不同文本之间的相似度。
本发明实施例还提供了一种文本相似度获取装置,该装置包括:
提取单元,用于根据预定的停用词规则剔除各文本中的停用词,提取出所述文本的可用词;
哈希值计算单元,用于计算文本中每一可用词的哈希值;
相似哈希值获取单元,用于根据文本中所有可用词的哈希值得到所述文本的相似哈希值;
相似度获取单元,用于利用文本的相似哈希值获取不同文本之间的相似度。
本发明实施例的有益效果是:
本发明实施例的技术方案提供了一种新型的文本相似度获取方案,剔除文本中的停用词得到仅包含可用词的文本信息,基于可用词和哈希运算设计了文本的相似哈希值,由该相似哈希值获取不同文本之间的相似度。
本发明实施例的文本相似度计算不依赖于文本中字符的顺序,具有顺序无关性,且计算方法比较简单,显著降低了文本相似度获取过程中的复杂度和数据计算量,实践证明,本方案能够准确快速地计算出文本的相似度。
附图说明
图1为本发明实施例一提供的一种文本相似度获取方法流程示意图;
图2为本发明实施例一提供的更新标记数组中元素的方法流程示意图;
图3为本发明实施例二提供的一种文本相似度获取装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
参见图1,为本发明实施例一提供的一种文本相似度获取方法,该方法包括:
11:根预定的停用词规则,剔除各文本中的停用词,提取出所述文本的可用词;
本实施例中,首先使用基于统计的分词系统对所需处理的文本进行分词,即根据预定的停用词规则剔除停用词,得到仅包含可用词(即文本中除去停用词之外的词语)的文本。计算机对于中文分词的处理难度要高于对西文的分词处理难度,分词是中文文本相似度计算的基础和前提,本方案通过采用高效的分词算法能够极大地提高文本相似度计算结果的准确性。
上述停用词规则所确定的停用词可以预先通过样本统计得到,例如,对样本中各字符的出现频率进行统计,在出现频率大于词频阈值的字符中确定停用词。例如,对出现频率大于词频阈值的词语(即词频较高),若该词语本身又无意义,则将该词语确定为停用词,如文本中的副词、虚词、语气词等通常都被归类为停用词。
比如:一个文本s的示例为“你好啊上帝的朋友”,则剔除掉“啊,的”等停用词得到由可用词{W1,W2,W3...Wn}组成的文本,这些可用词可以作为哈希结构中的键(keys),文本s的keys为{″你好″,″上帝″,″朋友″}。
12:计算文本中每一可用词的哈希值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京新媒传信科技有限公司,未经北京新媒传信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110372083.3/2.html,转载请声明来源钻瓜专利网。





