[发明专利]一种网络小说内容近似度比对方法无效

专利信息
申请号: 201210011329.9 申请日: 2012-01-13
公开(公告)号: CN103207864A 公开(公告)日: 2013-07-17
发明(设计)人: 刘瑞虹;姜波 申请(专利权)人: 北京中文在线数字出版股份有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 北京邦信阳专利商标代理有限公司 11012 代理人: 王昭林;项京
地址: 100007 北京市东城区安*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网络小说 内容 近似 方法
【说明书】:

技术领域

发明涉及一种内容近似度比对方法,更具体地,涉及一种针对网络小说的内容近似度比对方法。

背景技术

随着互联网技术的飞速发展,互联网上的各种数字内容越来越多,呈爆炸性增长趋势,包括各种内容的页面、学术论文、网络小说、学生作业等等,面对如此众多的数字内容,实现内容自动查重(近似度比对)是一项非常重要的技术,通过查重可以实现搜索引擎内容的重复检索、发表内容的抄袭检测、入库内容的非重复录入、有关研究内容的查新等。

查重技术源于复制检测技术。复制检测,就是判断一个文件的内容是否抄袭、剽窃或者复制于另外一个或多个文件。剽窃不仅仅意味着原封不动地照搬,还包括对原作的移位变换、同义词替换以及改变说法重述等方式。

查重技术从原理上分为两类:基于语法的方法(基于Shingle的方法)和基于语义的方法(基于Term的方法)。其中:Shingle是指文档中若干个连续出现的单词,这种方法从文档中选取一系列Shingle后统计相同的Shingle数目或者比率,作为判断文本相似度的依据。基于Term的方法采用单个词条作为计算的基本单元,而不考虑词条出现的位置和顺序.其中最著名的就是I-Match方法,选取IDF值(inverse document frequency,逆文本频率)较高的词条排序后构成为文档的特征向量值,特征向量值相似的文档被视为内容近似。其他基于Term的方法也大都采用SVM(Support Vector Machine,支持向量机)模型,利用TF/IDF(Term Frequency,词条频率)值进行文档关键词的提取,并将关键词作为文档的特征向量,通过计算文档间的近似度来进行近似度的检测。

当前已有针对网页内容和学术论文的近似度比对方法,针对页面的近似度比对的重点在于整个页面内容和格式的重复,学术论文查重的重点在于核心内容和方法的重复抄袭。但是网络小说有不同于网页和学术论文的特点,而且现有的针对网页和学术论文的直接处理方法计算量大,处理速度慢。因此,针对当前蓬勃发展的网络小说这一新内容形式,为了保护作者利益,亟需一种针对网络小说的处理更快速的近似度比对方法。

发明内容

针对上述问题,本发明提供了一种网络小说内容近似度比对方法,包括:

预处理步骤:对待比对网络小说进行预处理,提取关键词,将关键词进行同义词替换,以形成规范化网络小说;

特征指纹提取步骤:将待比对网络小说中的拆分为多组临近有序词,并对每一组临近有序词进行哈希运算形成的哈希表作为特征指纹;以及

特征指纹比对步骤:将所述特征指纹与特征比对库中存储的现有网络小说的特征指纹相比较,以两者的特征指纹相同的数目或比率来确定待比对网络小说与现有网络小说的近似度。

本发明的优点是:(1)针对网络小说的特点进行近似度比对;(2)近似度比对方法通过针对性的步骤,避免了方法复杂度大引起的效率不高问题,又避免了针对性不强引起的漏查问题;(3)本发明的方法具有自学习能力,通过学习机制,积累知识,提高查重准确度。

附图说明

图1为本发明的网络小说内容近似度比对方法的流程图。

具体实施方式

网络小说内容的本身的特殊性,是具有特殊的章节,特定人物,特定的时间和空间,以及这三个方面的彼此结合,构成了一个网络小说的自身特征。因此,本发明的方法的近似度比对主要针对:(1)重要章节的完全重复;(2)核心人物的情节重复;(3)时间空间的映射转换。

如图1所示,本发明首先对待比对网络小说进行预处理,然后进行特征提取,与特征比对库中存储的现有网络小说的特征进行比对,从而确定待比对网络小说与现有网络小说的近似度。下面详述本发明的近似度比对方法。

1.预处理:

1)同义词替换

优选地,在对待比对网络小说预处理之前,先去除网络小说的非内容信息,例如格式信息、版本信息等。

网络小说预处理同义词特征库(WIS)是网络小说中同义词特征的集合。这里,同义词包括等价关系、包含关系和相关关系。

等价关系就是通过增加同义词来提高获取网络小说内容的回应率(recall)。如:“计算机”、“电脑”、“computer”是等价关系,在比对过程中,不管这三个词的任何一个,通过等价关系处理都可以把其它两个等价词加入词中。这里用“equal(“计算机”)={“电脑”,“computer”}”表示“计算机”的等价关系集合。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中文在线数字出版股份有限公司,未经北京中文在线数字出版股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210011329.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top