[发明专利]一种用于文本复制检测的同义词扩展方法及装置无效
申请号: | 201110046257.7 | 申请日: | 2011-02-27 |
公开(公告)号: | CN102650986A | 公开(公告)日: | 2012-08-29 |
发明(设计)人: | 孙星明 | 申请(专利权)人: | 孙星明 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210044 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 文本 复制 检测 同义词 扩展 方法 装置 | ||
1.一种用于文本复制检测的同义词扩展方法及装置,其特征在于,包括:文本预处理模块,用于过滤待检测文本中的停用词、获取待扩展词汇,并对动词、名词和形容词进行标注;初始扩展集获取模块,针对每一个待扩展词汇,通过语义词典得到对应的初始扩展集;过滤模块,从预处理后的文本中,得到每一个带扩展词汇的上下文关系(bigram),通过计算bigram对应词汇的初始扩展及的交集,获取其所有可能的扩展搭配。并通过文本语料库,对扩展搭配进行过滤,得到最终的扩展集;权值计算模块,对于所得到的最终扩展集,在进行文本复制检测时,根据匹配情况赋予不同权值。
2.如权利要求1中所述文本预处理单元,其特征在于,根据切分所得bigram中的每个词汇的同义词集,计算笛卡尔积,得到词汇搭配扩展集。
3.如权利要求1中所述过滤单元,其特征在于,对初始扩展集中的所有词汇搭配,通过真实语料库进行过滤,去除掉其中不可能出现在真实语言环境下的词汇搭配。
4.如权利要求1中所述的权值计算单元,其特征在于,根据复制检测中的匹配情况,对原始词汇匹配成功的赋予最高权值,部分匹配原始词汇的权值次之,对于不能匹配原始集合却能匹配扩展集合的词汇,根据扩展集合大小计算其概率,以此作为权值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于孙星明,未经孙星明许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110046257.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于特征信号的电梯安全检测装置
- 下一篇:一种邮件安全管理的方法及邮件服务器