[发明专利]一种查找相似文本的方法及连接位相似性度量算法无效
申请号: | 201210135339.3 | 申请日: | 2012-05-04 |
公开(公告)号: | CN102682104A | 公开(公告)日: | 2012-09-19 |
发明(设计)人: | 龙军;袁鑫攀;罗跃逸 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410083 *** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种查找相似文本的方法,包括以下几个步骤:步骤1:文本特征提取步骤:该步骤用于提取文本特征集合Sshgs;步骤2:连接位指纹生成步骤:该步骤用于将Sshgs生成连接位指纹,记为Sdn;步骤3:连接位相似性度量步骤:该步骤用于比较两个文档的连接位指纹相似度;步骤4:利用连接位相似度结果,获得需要的文本。本发明相应的还公开了连接位相似性量度算法,并结合实验数据证明了此算法在略微牺牲很小的精度的情况下,却能成倍地减少比对的次数,提升算法的性能。 | ||
搜索关键词: | 一种 查找 相似 文本 方法 连接 相似性 度量 算法 | ||
【主权项】:
一种查找相似文本的方法,其特征在于包括以下步骤:步骤一,文本特征提取步骤:该步骤用于提取文本特征集合Sshgs;步骤二,连接位指纹生成步骤:该步骤用于将Sshgs生成连接位指纹,记为Sdn;步骤三,连接位相似性度量步骤:该步骤用于比较两个文档的连接位指纹相似度;步骤四,利用获得的连接位指纹相似度结果,获取需要的文本。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210135339.3/,转载请声明来源钻瓜专利网。
- 上一篇:立式绕线机
- 下一篇:一种便于检修的防爆阀