首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种文本相似性比对方法有效

申请号：	201610053813.6	申请日：	2016-01-27
公开（公告）号：	CN107015961B	公开（公告）日：	2021-06-25
发明（设计）人：	张国文	申请（专利权）人：	中文在线数字出版集团股份有限公司;中国新闻出版研究院
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/30;G06F16/9535
代理公司：	北京市盛峰律师事务所 11337	代理人：	于国富
地址：	100007 北京市东城***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本相似性方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本相似性比对方法，其特征在于，使用文本分析调度器将需要做文本内容相似度分析的网络作品比对任务均衡地分配给多个文本分析器，并监测文本分析器的状态；然后，在文本分析器中，采用多粒度分层算法进行文档内容相似性比对，所述多粒度分层算法包括如下步骤：

S1，以文档为粗粒度，根据词的浅层次相似度从注册作品库中筛选出相似度最大的N个作品形成候选作品集，其中，N为自然数；

S2，对所述候选作品集中的每个作品进行文本分段，得到分段文本；

S3，以所述分段文本为细粒度，进行文本细粒度相似度比对。

2.根据权利要求1所述的文本相似性比对方法，其特征在于，S1之前还包括步骤S0：对所述网络作品分配到某个文本分析器中的待比对文档和所述注册作品库中的文档进行分词和词性标注。

3.根据权利要求2所述的文本相似性比对方法，其特征在于，S0和S1之间还包括步骤：对所述分词进行过滤处理。

4.根据权利要求3所述的文本相似性比对方法，其特征在于，所述对所述分词进行过滤处理，采用插件式过滤链，所述插件式过滤链包括停用词过滤器和/或同义词过滤器。

5.根据权利要求1所述的文本相似性比对方法，其特征在于，S1中，所述词的浅层次相似度，采用如下公式进行计算：

Sim(D1,D2)＝Count(D1∩D2)/(Count(D1)+Count(D2))，

式中，

D＝{W1,W2,W3…}表示文档，

Wi表示文档D中的词，

D1∩D2表示文档D1、D2中词的交集，

Count(Di)表示文档Di中词的个数，当词有重复时，重复数不计入词的个数。

6.根据权利要求1所述的文本相似性比对方法，其特征在于，S2中，所述文本分段包括如下方式：以段落分段、以一定数量的字词分段或以句子分段。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中文在线数字出版集团股份有限公司;中国新闻出版研究院，未经中文在线数字出版集团股份有限公司;中国新闻出版研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201610053813.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种可折叠的无线键盘
下一篇：一种计算机科学与技术教学用滑动键盘

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top