[发明专利]一种文本相似度比对方法及装置在审
| 申请号: | 201510695861.0 | 申请日: | 2015-10-23 |
| 公开(公告)号: | CN105302779A | 公开(公告)日: | 2016-02-03 |
| 发明(设计)人: | 姜晓丹 | 申请(专利权)人: | 北京慧点科技有限公司;中国新闻出版研究院 |
| 主分类号: | G06F17/21 | 分类号: | G06F17/21;G06F17/27 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
| 地址: | 100192 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 相似 方法 装置 | ||
技术领域
本申请涉及信息处理技术领域,更具体地说,涉及一种文本相似度比对方法及装置。
背景技术
随着互联网的飞速发展,信息技术的发展也突飞猛进,各类信息资源的数量以惊人的速度增长,如何对互联网上发布的文档进行侵权比对,成为亟待解决的问题。
现有的技术一般采用基于媒体指纹的比对方式,媒体指纹比对方式中的参考文本的特征是固定的,通过将待对比文本的内容表示为与参考文本的特征同类型的特征,进而对比该特征,确定两份文本的相似度。
由于媒体指纹比对方式中参考文本的特征是固定的,其不随着待对比文本的变化而变化,因此其文本相似度比对结果的精确度偏低。
发明内容
有鉴于此,本申请提供了一种文本相似度比对方法及装置,用于解决现有基于媒体指纹的比对方式所存在的文本相似度比对结果精确度低的问题。
为了实现上述目的,现提出的方案如下:
一种文本相似度比对方法,包括:
接收待对比文本;
从预置的参考文本集合中选取第一文本集合,所述第一文本集合中的任意一份第一文本与所述待对比文本所包含的相同词的数量占两份文本总词量的比例超过第一阈值;
以句子为分段单位,对所述待对比文本和所述第一文本集合中的文本进行分段;
针对所述第一文本集合中的每一份第一文本,计算其与所述待对比文本的细粒度文本相似度,其中,细粒度文本相似度由所述第一文本和所述待对比文本的句子的浅层相似度、信息熵相似度和浅语义相似度确定;
筛选出细粒度文本相似度超过第二阈值的第一文本,确定为所述待对比文本的相似文本。
优选地,在所述从预置的参考文本集合中选取第一文本集合之前,该方法还包括:
对所述待对比文本进行停用词、同义词过滤处理。
优选地,所述从预置的参考文本集合中选取第一文本集合,包括:
计算待对比文本D1与参考文本集合中任意一份文本D2的粗粒度文本相似度Sim(D1,D2):
Sim(D1,D2)=Count(D1∩D2)/(Count(D1)+Count(D2)),其中,D1∩D2表示文本D1、D2所包含的相同的词,Count()是词的个数;
从所述参考文本集合中选取粗粒度文本相似度Sim(D1,D2)超过第一阈值的文本D2,由选取的若干个文本D2组成第一文本集合。
优选地,所述针对所述第一文本集合中的每一份第一文本,计算其与所述待对比文本的细粒度文本相似度,包括:
第一,计算句子浅层相似度SimSha(S1,S2):
SimSha(S1,S2)=Count(S1∩S2)/(Count(S1)+Count(S2)),其中,S1为待对比文本D1中的句子,S2为第一文本集合中任意一份第一文本D2中的句子,S1∩S2表示句子S1、S2所包含的相同的词,Count()是词的个数;
第二,计算信息熵相似度SimEnt(S1,S2):
SimEnt(S1,S2)=∑(E(Wi))
E(W)=log(N/n)
其中词Wi∈S1∩S2,N表示第一文本D2中句子的总数,n是包含词W的句子数;
第三,计算浅语义相似度SimSemS(S1,S2):
其中,词义相似度的表达式为:
SimSemW(Wj,Wk)=F(SimLex(Wj,Wk),SimPos(Wj,Wk),SimCon(Wj,Wk))=SimLex(Wj,Wk)·SimPos(Wj,Wk)·SimCon(Wj,Wk)
其中,Wj为句子S1中的词,Wk为句子S2中的词,SimLex(Wj,Wk)、SimPos(Wj,Wk)、SimCon(Wj,Wk)分别表示词Wj与Wk的词汇相似度、词性相似度、词上下文相似度,SimLex(Wj,Wk)是词Wj与Wk对应的义原在义原树上的距离;当Wj与Wk词性一样时,SimPos(Wj,Wk)取值为1、当Wj与Wk词性不一样时,SimPos(Wj,Wk)取值为0;SimCon(Wj,Wk)=ABS(pos1/N1-pos2/N2),其中,pos1、pos2分别是Wj、Wk在相应句中的位置,N1、N2是Wj、Wk所在句子的长度;
浅语义相似度SimSemS(S1,S2)为:
SimSemS(S1,S2)=2·∑0≤i<Len(S1)ArgMax{SimSemW(Wi,Wj):0≤j<Len(S2)}/(Len(S1)+Len(S2))
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京慧点科技有限公司;中国新闻出版研究院,未经北京慧点科技有限公司;中国新闻出版研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510695861.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种语音平台架构调整方法
- 下一篇:一种系统级芯片及其内存访问管理方法





