[发明专利]一种用于文本复制检测的同义词扩展方法及装置无效
申请号: | 201110046257.7 | 申请日: | 2011-02-27 |
公开(公告)号: | CN102650986A | 公开(公告)日: | 2012-08-29 |
发明(设计)人: | 孙星明 | 申请(专利权)人: | 孙星明 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210044 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种用于文本复制检测中的同义词扩展方法及其装置。包括:文本与处理单元,将可疑文本去除停用词并进行词性标注,将动词、名词和形容词作为待处理对象;通过检索单一词汇的同义词,计算笛卡尔积,获取可疑文本中所有词汇搭配的初始扩展集;通过比对初始扩展及和真实语料库,过滤掉其中不可能出现在真实语言环境下的词汇搭配,对集合进行精简,得到最终扩展集;在复制检测时,根据不同的匹配结果,赋予词汇不同权值,以此进行复制检测结果的计算依据。使用本发明实施例的方法或装置可以有效地克服文本复制中的同义词替换问题,且效率较高,对于复制检测的精确率有较大提高。 | ||
搜索关键词: | 一种 用于 文本 复制 检测 同义词 扩展 方法 装置 | ||
【主权项】:
一种用于文本复制检测的同义词扩展方法及装置,其特征在于,包括:文本预处理模块,用于过滤待检测文本中的停用词、获取待扩展词汇,并对动词、名词和形容词进行标注;初始扩展集获取模块,针对每一个待扩展词汇,通过语义词典得到对应的初始扩展集;过滤模块,从预处理后的文本中,得到每一个带扩展词汇的上下文关系(bigram),通过计算bigram对应词汇的初始扩展及的交集,获取其所有可能的扩展搭配。并通过文本语料库,对扩展搭配进行过滤,得到最终的扩展集;权值计算模块,对于所得到的最终扩展集,在进行文本复制检测时,根据匹配情况赋予不同权值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于孙星明,未经孙星明许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110046257.7/,转载请声明来源钻瓜专利网。
- 上一篇:基于特征信号的电梯安全检测装置
- 下一篇:一种邮件安全管理的方法及邮件服务器