[发明专利]一种用于文本复制检测的同义词扩展方法及装置无效
申请号: | 201110046257.7 | 申请日: | 2011-02-27 |
公开(公告)号: | CN102650986A | 公开(公告)日: | 2012-08-29 |
发明(设计)人: | 孙星明 | 申请(专利权)人: | 孙星明 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210044 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 文本 复制 检测 同义词 扩展 方法 装置 | ||
技术领域
本发明一般地涉及文本复制检测中的同义词扩展技术,尤其设计出一种可防止同义词扩展过程中扩展集过大的方法和装置。
背景技术
随着计算机技术与互联网的飞速发展、数字信息的海量增长,如何防止数字信息被非法复制与传播已成为了一个急需解决的问题。在这些数字信息复制中,最为普遍的是文本复制。文本复制检测的目的就是通过对比可疑文本和指定的语料库,发现文本中的抄袭部分。这种比对方法,针对文本的直接复制有较好的效果。但对于文本中的同义词替换现象却无能为力。针对这种现象,一些复制检测方法中引入了同义词扩展技术。
同义词扩展需要借助于语义词典,语义词典中包含有非常丰富的语义信息,通过它可得到词语之间的类别关系和相似性关系。同义词扩展通常的方法是,用待扩展词汇到同义词词典中进行查询,得到一个词汇的扩展集合。该集合中词汇,包含了所有与待扩展词汇语义相近的词语。在文本复制检测中,可将这些扩展集合中的词汇用于文本之间的比对,对于进行了同义词替换的检测,具有一定的效果。
这种同义词扩展的缺陷在于,通过上述方法得到的扩展集合通常较大,若将待检测文本中的每一个词进行上述扩展,会造成待检测词汇过多而影响到检测的效率甚至准确率。而考虑到真实语言现象中的上下文环境,扩展集合中的大部分词汇如被用于文本复制,会造成语句的不通顺或句子意义的改变而不会被剽窃者采用。因此,如何将扩展集合中不具备检测价值的词汇进行过滤成为了问题的关键。
发明内容
有鉴于此,本发明实施例提供了一种有效的同义词扩展方法,结合文本中的上下文语境,对词汇的扩展集合进行过滤,将过滤后所得的扩展集合用于文本复制检测。本方法克服了同义词扩展中,扩展集合过大而影响到检测效率和检测准确率的问题。
本发明实施例是通过以下技术方案实现的:
文本预处理;
通过语义词典,获取待扩展词汇的初始扩展集;
结合带扩展词汇在待检测文本中的上下文语境,通过真实文本语料库对初始扩展集进行过滤;
根据复制检测的匹配情况为同义词搭配计算权值。
本发明实施例还提供一种用于文本复制检测的同义词扩展装置,包括:文本预处理模块、初始扩展集获取模块、过滤模块。其中:
文本预处理模块,用于过滤待检测文本中的停用词、获取待扩展词汇,并对动词、名词和形容词进行标注;
初始扩展集获取模块,针对每一个待扩展词汇,通过语义词典得到对应的初始扩展集;
过滤模块,从预处理后的文本中,得到每一个带扩展词汇的上下文关系(bigram),通过计算bigram对应词汇的初始扩展集的交集,获取其所有可能的扩展搭配。并通过文本语料库,对扩展搭配进行过滤,得到最终的扩展集;
权值计算模块,对于所得到的最终扩展集,在进行文本复制检测时,根据匹配情况赋予不同权值。
由上述本发明例的具体技术实施方案可以看出,本发明实施例对词汇进行扩展的同时,考虑到了真实语言环境下的上下文关系,将不存在同义词搭配的扩展词汇进行了筛选,最终所得的扩展集中所包含的均为真实语言环境下可能出现的同义词搭配,有效地改善了复制检测中的效率,并将同义词扩展对复制检测准确率的影响进行了有效地改善。
附图说明
图1为本发明实施例文本预处理流程图
图2为本发明实施例初始扩展集计算图
图3为本发明实施例最终扩展集计算图
具体实施方式
为使本发明的目的、技术方案和优点更加清晰,下面结合附图对本发明实施例所提出的技术方案进行详细说明。
本发明实施例的第一步即文本预处理,参照图1包括如下步骤:
步骤1:对于可疑文本,使用已有的自然语言处理工具,对其进行分词。
步骤2:通过停用词表,删除掉可疑文本中的停用词。
步骤3:通过已有的自然语言处理工具,将上述处理后的文本中的动词、名词和形容词进行标注。
对于给定的可疑文本,经过上述预处理步骤后,得到文本。
参照图2,对于与处理后所得文本,进行同义词扩展。在此过程中,由于需要引入上下文信息,因此此处扩展的是从中所提取出的bigram。
步骤1:对进行bigram切分,获取其中包含的bigram。
步骤2:对于给定的bigram—,分别对,通过语义词典进行扩展,得到,的同义词集合,。
步骤3:计算笛卡尔积,得到的初始扩展集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于孙星明,未经孙星明许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110046257.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于特征信号的电梯安全检测装置
- 下一篇:一种邮件安全管理的方法及邮件服务器