[发明专利]一种新术语识别方法有效

专利信息
申请号: 201510845390.7 申请日: 2015-11-27
公开(公告)号: CN106815187B 公开(公告)日: 2020-04-14
发明(设计)人: 符建辉;王卫明;曹阳 申请(专利权)人: 中科国力(镇江)智能技术有限公司
主分类号: G06F40/279 分类号: G06F40/279;G06F40/284
代理公司: 南京知识律师事务所 32207 代理人: 高娇阳
地址: 212009 江苏省镇江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 术语 识别 方法
【说明书】:

发明涉及一种新术语识别系统和方法,其系统包括对输入文本库RCorpus中的每篇文档进行分词,形成文本词序列模块A;对分词后的文本库TCorpus中的每篇文档词语序列进行新术语识别模块B;对识别的新术语进行验证模块C;其方法包括以下步骤:第一步:文本词序列模块A对输入文本库RCorpus中的每篇文本进行分词,形成文本词序列;第二步:新术语识别模块B对分词后的文本库TCorpus中的每篇文本词语序列进行新术语识别;第三步:验证模块C对识别的新术语进行验证;本发明提出了一种精度高、召回率高的新术语识别方法和系统。新术语的识别精度为93.8%。

技术领域

本发明涉及汉语自然语言处理、汉语新词语自动识别领域,特别是涉及一种新术语自动识别方法。

背景技术

伴随互联网的快速发展,各类新术语层出不穷,这个自然语言处理应用、自动应用软件(如分词系统)、词典收编工作灯带来很大的困难。

新术语识别的研究已经展开了多年。现存的方法有以下三类。第一基于统计的方法。例如,Kenneth Ward Church和Béatrice Daille等人使用互信息(MutualInformation)来抽取词语的固定组合和搭配,他们认为频繁共现的邻近字符组合一般都是术语,然后使用互信息判断词组的共现程度。又如,Ted Dunning和Jonathan D.Cohen等人采用用对数似然比(Log-Likelihood Ratio)来统计低频词语的识别问题,从理论和事实两方面论证了这种方法的有效性。统计方法还包括条件随机场方法、隐马尔科夫方法、最大熵方法等。第二是基于语言学特征和词法模式的方法。例如,刘磊、王石和田国刚采用多特征,结合词法和句法模式,获得新的专业术语。第三是前两种方法的集成应用,因而克服了各自的不足。

但是,经过详细的实验分析,上述方法存以下两个问题。

问题1:新术语识别精度问题。采用纯统计的方法,虽然能识别较多地新术语,但是通常会引入大量的错误;也即,不是新术语的汉字串,被误以为是新术语。例如,在语句“总部组织干部学习中央精神”中,采用统计方法时,很容易就将“总部组织干部”、“组织干部”、“干部学习”等误识为新术语,而本质上,它们均不是。另一方面,要确保新术语额度识别精度很高,识别广度又受到限制。这是本发明需要解决的关键问题之一。

问题2:新术语识别广度问题。由于词语的组合情况很多,因此新术语自动识别很容易遗漏掉新有意义的术语。因此,如何提高识别广度是一个重要的问题。这也是本发明需要解决的关键问题之一。

发明内容

本发明所要解决的技术问题:新术语识别精度问题、识别广度问题。

针对问题1,本发明引入了种子术语词典技术,不仅利用种子词典进行新术语的识别,同时也用它来验证新获得的新术语。

针对问题2,本发明引入了多源迭代式新术语识别技术。首先,采用多源分析方法,根据多个文本进行比照验证,提升新术语的识别精度;同时将获得的新术语加入到种子术语词典中,不断地循环使用,从而获得更多的新术语。

为了实现上述目的,本发明提供了如下技术方案:

一种新术语识别方法,其特征在于:包括以下步骤:

第一步:文本词序列模块A对输入文本库RCorpus中的每篇文本进行分词,形成文本词序列;

我们采用一个开源的ICTCLAS系统对RCorpus中的每篇输入文本D进行分词,分词结果为T′=W1/pos1 W2/pos2 … Wi/posi … Wn/posn,其中每个Wi是一个汉语词、汉字、标点符号、阿拉伯数字、英文单词或字母,posi是其对应的词性;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科国力(镇江)智能技术有限公司,未经中科国力(镇江)智能技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510845390.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top