[发明专利]一种查找相似文本的方法及连接位相似性度量算法无效
申请号: | 201210135339.3 | 申请日: | 2012-05-04 |
公开(公告)号: | CN102682104A | 公开(公告)日: | 2012-09-19 |
发明(设计)人: | 龙军;袁鑫攀;罗跃逸 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410083 *** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 查找 相似 文本 方法 连接 相似性 度量 算法 | ||
技术领域
本发明涉及信息检索领域,尤其涉及一种估计相似度的方法,可应用于海量文档之间的相似度度量估计,特别适用于海量信息中快速查找相似的文本信息。
技术背景
互联网技术的快速发展,使得网络上的数据信息呈现指数级增长,如何在海量的信息中快速查找有效的信息,变得越来越重要。文本相似度度量这一概念及相关技术也应运而生。一个好的文本相似度度量方法在自动问答系统、智能检索、网页去重、自然语言处理等研究领域具有重要的意义。
文本相似度是指两个或者多个文本之间的匹配程度的一个度量参数,相似度越高,表示两个文本之间的相似程度越大,反之越低。传统的文本相似度度量方法是向量空间模型(VSM)通过计算待查文档与数据集中某一篇文档带有权重的频率向量内积,得到两篇文档的相似度。算法需要存储大量的特征词汇、比对速度慢、准确率低等缺点,无法应用于海量数据中相似度度量。基于minwise相似性度量算法通过将相似度问题转换为一个事件的发生概率问题,该方法将文本特征词汇集合映射到hash值集合中,将字符串比对问题转化为数值比对问题,适用于海量数据相似度度量,但是算法需要比对大量的指纹,占用大量的存储空间。2010年,Ping Li等人在minwise相似性度量算法的基础上进行了改进,提出了b位minwise相似性度量算法,该算法通过使用更少的b位来估计两个文档的相似度,但是算法还是需要比对大量的指纹。
发明内容
本发明提出了一种新的查找相似文本的方法,以克服前面提及的现有技术中的种种不足。
根据本发明的方法,包括以下步骤:
步骤一,文本特征提取步骤:该步骤用于提取文本特征集合Sshgs;
步骤二,连接位指纹生成步骤:该步骤用于将Sshgs生成连接位指纹,记为Sdn;
步骤三,连接位相似性度量步骤:该步骤用于比较两个文档的连接位指纹相似度;
步骤四,利用获得的连接位指纹相似度结果,获取需要的文本。
本发明还提供了一种连接位相似性算法,其特征在于包括前述的步骤一,步骤二,步骤三。
附图说明
图1是根据本发明的方法的主要流程示意图
图2是根据本发明的实施例的连接位相似度与方差的关系图
图3是根据本发明的实施例在XX数据集中连接位的准确率和召唤率的实验结果
图4是根据本发明的实施例在XX数据集的的实际效率比对图
具体实施方式
以下将结合附图对本发明提供的方法进行详细的说明,并将结合实例及实验数据对根据本发明的方法的优势进行具体的说明。实验表明,本发明的方法在略微牺牲很小的精度的情况下,却能成倍地减少比对的次数,提升查找性能。
本发明提出的查找相似文本的方法,具体包括如下步骤:
步骤一,文本特征提取步骤:该步骤用于提取文本特征集合Sshgs;
步骤二,连接位指纹生成步骤:该步骤用于将Sshgs生成连接位指纹,记为Sdn;
步骤三,连接位相似性度量步骤:该步骤用于比较两个文档的连接位指纹相似度;
步骤四,利用获得的连接位指纹相似度结果,获取需要的文本。
优选的,在步骤一中,具体包括:
首先,对文本信息进行扫描分析,利用中文分词算法对文档进行分词,生成词语集合;然后,构建停用词表,并利用停用词表过滤掉文本噪音数据后的分词集合即为文档的特征集合Sshgs。噪音即为文本中无意义的词语,一般是高频低义的助词、虚词等;
优选的,在步骤二中具体包括:
1)形成minwise指纹
对步骤一生成的文档特征集合Sshgs采用Rabin函数,映射32位的整数,映射后集合命名为Sd。假定全集Ω={0,1,...,D-1},a0a1,...aD-1恒指Ω上的一个排列,向量(a0,a1,...,aD-1)代表Ω的一个置换:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210135339.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:立式绕线机
- 下一篇:一种便于检修的防爆阀