[发明专利]一种网络小说内容近似度比对方法无效
| 申请号: | 201210011329.9 | 申请日: | 2012-01-13 |
| 公开(公告)号: | CN103207864A | 公开(公告)日: | 2013-07-17 |
| 发明(设计)人: | 刘瑞虹;姜波 | 申请(专利权)人: | 北京中文在线数字出版股份有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 北京邦信阳专利商标代理有限公司 11012 | 代理人: | 王昭林;项京 |
| 地址: | 100007 北京市东城区安*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 网络小说 内容 近似 方法 | ||
技术领域
本发明涉及一种内容近似度比对方法,更具体地,涉及一种针对网络小说的内容近似度比对方法。
背景技术
随着互联网技术的飞速发展,互联网上的各种数字内容越来越多,呈爆炸性增长趋势,包括各种内容的页面、学术论文、网络小说、学生作业等等,面对如此众多的数字内容,实现内容自动查重(近似度比对)是一项非常重要的技术,通过查重可以实现搜索引擎内容的重复检索、发表内容的抄袭检测、入库内容的非重复录入、有关研究内容的查新等。
查重技术源于复制检测技术。复制检测,就是判断一个文件的内容是否抄袭、剽窃或者复制于另外一个或多个文件。剽窃不仅仅意味着原封不动地照搬,还包括对原作的移位变换、同义词替换以及改变说法重述等方式。
查重技术从原理上分为两类:基于语法的方法(基于Shingle的方法)和基于语义的方法(基于Term的方法)。其中:Shingle是指文档中若干个连续出现的单词,这种方法从文档中选取一系列Shingle后统计相同的Shingle数目或者比率,作为判断文本相似度的依据。基于Term的方法采用单个词条作为计算的基本单元,而不考虑词条出现的位置和顺序.其中最著名的就是I-Match方法,选取IDF值(inverse document frequency,逆文本频率)较高的词条排序后构成为文档的特征向量值,特征向量值相似的文档被视为内容近似。其他基于Term的方法也大都采用SVM(Support Vector Machine,支持向量机)模型,利用TF/IDF(Term Frequency,词条频率)值进行文档关键词的提取,并将关键词作为文档的特征向量,通过计算文档间的近似度来进行近似度的检测。
当前已有针对网页内容和学术论文的近似度比对方法,针对页面的近似度比对的重点在于整个页面内容和格式的重复,学术论文查重的重点在于核心内容和方法的重复抄袭。但是网络小说有不同于网页和学术论文的特点,而且现有的针对网页和学术论文的直接处理方法计算量大,处理速度慢。因此,针对当前蓬勃发展的网络小说这一新内容形式,为了保护作者利益,亟需一种针对网络小说的处理更快速的近似度比对方法。
发明内容
针对上述问题,本发明提供了一种网络小说内容近似度比对方法,包括:
预处理步骤:对待比对网络小说进行预处理,提取关键词,将关键词进行同义词替换,以形成规范化网络小说;
特征指纹提取步骤:将待比对网络小说中的拆分为多组临近有序词,并对每一组临近有序词进行哈希运算形成的哈希表作为特征指纹;以及
特征指纹比对步骤:将所述特征指纹与特征比对库中存储的现有网络小说的特征指纹相比较,以两者的特征指纹相同的数目或比率来确定待比对网络小说与现有网络小说的近似度。
本发明的优点是:(1)针对网络小说的特点进行近似度比对;(2)近似度比对方法通过针对性的步骤,避免了方法复杂度大引起的效率不高问题,又避免了针对性不强引起的漏查问题;(3)本发明的方法具有自学习能力,通过学习机制,积累知识,提高查重准确度。
附图说明
图1为本发明的网络小说内容近似度比对方法的流程图。
具体实施方式
网络小说内容的本身的特殊性,是具有特殊的章节,特定人物,特定的时间和空间,以及这三个方面的彼此结合,构成了一个网络小说的自身特征。因此,本发明的方法的近似度比对主要针对:(1)重要章节的完全重复;(2)核心人物的情节重复;(3)时间空间的映射转换。
如图1所示,本发明首先对待比对网络小说进行预处理,然后进行特征提取,与特征比对库中存储的现有网络小说的特征进行比对,从而确定待比对网络小说与现有网络小说的近似度。下面详述本发明的近似度比对方法。
1.预处理:
1)同义词替换
优选地,在对待比对网络小说预处理之前,先去除网络小说的非内容信息,例如格式信息、版本信息等。
网络小说预处理同义词特征库(WIS)是网络小说中同义词特征的集合。这里,同义词包括等价关系、包含关系和相关关系。
等价关系就是通过增加同义词来提高获取网络小说内容的回应率(recall)。如:“计算机”、“电脑”、“computer”是等价关系,在比对过程中,不管这三个词的任何一个,通过等价关系处理都可以把其它两个等价词加入词中。这里用“equal(“计算机”)={“电脑”,“computer”}”表示“计算机”的等价关系集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中文在线数字出版股份有限公司,未经北京中文在线数字出版股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210011329.9/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法





