[发明专利]一种基于海量文本数据的相似度衡量方法有效

申请号：	201310335123.6	申请日：	2013-08-02
公开（公告）号：	CN104346394B	公开（公告）日：	2018-12-21
发明（设计）人：	陆嘉恒	申请（专利权）人：	中国人民大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京中创阳光知识产权代理有限责任公司 11003	代理人：	尹振启
地址：	100872 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于海量文本数据相似衡量方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于海量文本数据的相似度衡量方法，该方法基于语义规则的扩展来衡量文本信息的相似度，具体分为两种扩展方法：全扩展和选择扩展。前者将全部可用语义规则用于扩展字符串，后者结合了全扩展和贪心扩展，给出了一种更加有效的扩展方法。通过实验对比表明，两种扩展方法都取得了非常好的性能，从而验证了本发明的可行性与可靠性。

技术领域

本发明涉及一种基于海量文本数据的相似度衡量方法，具体涉及一种对不同文本进行数据相似度比对的方法，属于信息技术领域中字符串模糊匹配技术。

背景技术

近十年来，随着互联网的不断发展，文本数据信息不断积累，同时，信息检索与关系数据库有不断融合的趋势。关系数据库通过提供更加强大的操纵文本数据的函数，促进了这一趋势的发展。随着关系数据库中存储的文本数据越来越多，对字符串进行模糊匹配和查询的需求也在增加。

目前，已经有许多衡量字符串相似度的方法，比如Levenshtein距离、Hamming距离、Episode距离、Cosine矩阵、Jaccard距离等，但是这些方法仅考虑字符串的字面相似度而忽略了字符串的语义信息相似度。在实际的情况下，很多字面不相同的字符串通常表示了相同的含义，比如有下面两个字符串:

S₁=KDD 2012 conference

S₂=18th ACM SIGKDD conference

两者指的是同一个会议，但是其Jaccard相似度仅有1/6，这个相似度比对结果显然是不理想的。

假如我们有三条语义规则：


1]]>	KDD→Knowledge Discovery and Data Mining
2]]>	SIGKDD→ACM Knowledge Discovery and Data Mining
3]]>	ACM→Association for Computing Machinery

现在的问题就变成，如何利用语义规则来衡量字符串的相似度。

目前已有的基于语义规则的字符串相似度衡量方法是JaccT，其基本思想是枚举所有语义规则，替换字符串中的相应部分，产生新的字串。在上面的例子中，利用JaccT方法，可以把S₂中的ACM替换为Association for Computing Machinery，从而产生一个新的字符串，类似的，可以将SIGKDD替换，还可以把两者都替换，从而产生了3个与S₂相关的新字符串，也可以对S₁做类似的替换操作。衡量相似度时，从S₂的4个字符串与S₁的两个字符串中选择两两相似度最大的一对字符串的相似度作为最终结果，在上面的例子中，就需要计算2²⁺¹次相似度，才能获得最终结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民大学，未经中国人民大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310335123.6/2.html，转载请声明来源钻瓜专利网。

上一篇：内偏置非同轴式驾驶室稳定杆系统扭管内径的设计方法
下一篇：一种存储索引的方法和装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于海量文本数据的相似度衡量方法有效

专利文献下载