[发明专利]应用于抄袭检测的信息指纹索引方法无效
申请号: | 201010513703.6 | 申请日: | 2010-10-21 |
公开(公告)号: | CN101957864A | 公开(公告)日: | 2011-01-26 |
发明(设计)人: | 陈琳;王奎;张振海 | 申请(专利权)人: | 同方知网(北京)技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京捷诚信通专利事务所(普通合伙) 11221 | 代理人: | 魏殿绅 |
地址: | 100084 北京市海淀区清华园清华*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 应用于 抄袭 检测 信息 指纹 索引 方法 | ||
技术领域
本发明涉及一种文本抄袭检测技术,尤其涉及一种基于B树的应用于抄袭检测的信息指纹索引方法。
背景技术
文本抄袭检测是指判断一篇文档是否抄袭或者拷贝了其他一篇或多篇文档的内容。抄袭不完全等同于复制,而是通过一定的词位变换、同义词替换等多种手段来剽窃其他文档的内容。
目前,文本抄袭检测技术主要有两种方法:一种是指纹检测法,一种是词频检测法。所谓指纹法是指从文本内容中提取一些称为指纹的特征串,根据指纹雷同率来判断一篇文档对哪些文档进行了抄袭或拷贝。所谓词频检测法是通过统计文本中各个词的出现频率,对每篇文档得到一个特征向量,利用在两篇文档的特征向量上计算某种度量,对两篇文档的相似度得出一个量化指标,依据此指标判断是否进行了抄袭或拷贝。
传统的指纹检测法可以精确地定位到被抄袭内容。但是,由于需要读取大量的指纹数据,不可避免的将发生大量磁盘I/O,使得检测效率比较低。词频检测法由于读取需要的数据量较小,因此效率相对较高。但是,由于词频检测法对整个内容提取特征,当抄袭内容指占整篇文本很小的一部分时,词频检测法很难检测出来。
现在文本库的数据基本上是海量的,抄袭检测依靠人工检测无疑是大海捞针,即便是使用计算机如果没有良好的算法和高性能的机器配置也是不可能完成的。指纹检测的难点就在于找到一个很好的索引方法,这也是抄袭检测的核心技术。
发明内容
为解决上述中存在的问题与缺陷,本发明提供了一种应用于抄袭检测的信息指纹索引方法。所述技术方案如下:
一种应用于抄袭检测的信息指纹索引方法,包括:
A、抄袭检测中的信息指纹索引的数据结构;
B、为提取的信息指纹建立索引;
C、插入与删除信息指纹索引项;
D、通过建立的信息指纹索引进行检索。
本发明提供的技术方案的有益效果是:
本发明可以快速的从文献中找到与待检测的文本最有可能有抄袭关系的文献,通过对少量文献进行比对,便可以精确判断其抄袭的关系。
附图说明
图1是本发明方法流程图;
图2是本发明编码方式的实现方案图;
图3是本发明系统部署图;
图4是B+树结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述:
参见图1,为本实施例实现方法流程,该方法包括以下步骤:
步骤10抄袭检测中的信息指纹索引的数据结构;
步骤20为提取的信息指纹建立索引;
步骤30插入与删除信息指纹索引项;
步骤40通过建立的信息指纹索引进行检索。
上述抄袭检测中的信息指纹的索引数据结构采用B+树的索引数据结构,首先将文本数据库中的文本,以文本片段为单位,可以是一句话也可以是几句话,然后抽取这个文本片段的信息指纹,此文本的记录号即文本ID片段在文本的位置,组成记录,这是一个海量的额数据表,为了支持这个表中的数据检索必须要建立一个索引。
上述B+树的索引数据结构满足以下条件:
(1)M-阶的B+树中每个结点至多有m个孩子;
(2)除根结点和叶子结点外,其它每个结点至少有m/2个孩子;
(3)若根结点不是叶子结点,则至少有2个孩子;
(4)所有叶子结点都出现在同一层,叶子结点中包含了全部关键字(索引值)的信息,及指向含这些关键字记录的指针,且叶子结点本身依关键字的大小自小而大顺序链接。
(5)有k个孩子的非终端结点恰好包含有k个关键字。
(6)通常在B+树上有两个指针,一个指向根结点,一个指向关键字最小的叶子结点。
上述信息指纹索引项的插入分为两种情况:
不违规状态:即叶子结点的父亲结点的孩子数小于m,只需在此父亲结点增加一个关键字即索引值即可。
违规状态:即叶子结点的父亲结点的孩子数等于m,需要将该父亲结点分裂为两个结点,它们所含关键字的个数分别为和并且它们的双亲结点中应同时包含这两个结点中的最大的关键字。并把中间的一个关键字拿出来插到该节点的双亲结点中去,双亲结点也可能是满的,就需要再分裂、再往上插,从而可能导致B+树可能朝着根的方向生长。
上述信息指纹索引项的删除同样存在两种情况:
不违规状态:即叶子结点的父亲结点的孩子数大于m/2,只需在此父亲结点删除一个关键字即可。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同方知网(北京)技术有限公司,未经同方知网(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010513703.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种手持设备的开关机电路
- 下一篇:一种投影显示的笔记本电脑
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置