[发明专利]中文单字串模式和词缀模式的新词自动识别技术及系统无效

专利信息
申请号: 201110236723.8 申请日: 2011-08-18
公开(公告)号: CN102955771A 公开(公告)日: 2013-03-06
发明(设计)人: 吕钊;蒋鑫;曹艳娇 申请(专利权)人: 华东师范大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 隆天国际知识产权代理有限公司 72003 代理人: 吴世华;冯志云
地址: 200241 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 中文 字串 模式 词缀 新词 自动识别 技术 系统
【说明书】:

技术领域

发明涉及自然语言处理领域,具体地涉及对中文新词进行自动识别、提取的控制方法以及相应的控制系统。  

背景技术

中文自动分词是处理中文自然语言的基础,但是由于信息的飞速发展,中文语言在很大范围的各个领域上都产生了巨大的变化,越来越多的新词不断地出现在网络中,这给中文分词工具的词典创建带来了很大的挑战,也必然导致分词正确率的降低。因此新词识别成为中文信息处理领域上的一个瓶颈。新词自动识别技术在提高中文分词技术的正确率上具有很大的帮助,另外新词语自动发现可以应用于输入法细胞词库更新,如搜狗输入法、QQ输入法、谷歌输入法都带有自动在线更新词库功能。除了上面介绍的两个领域之外,新词自动发现技术对机器翻译、语言学应用和信息检索等领域也都有较为重要的意义。

目前主要的研究方法大致分为3种:一是基于规则的方法,利用构词原理,结合语义信息和词性来建立模式库和规则库,再通过模式匹配的方式来识别新词;二是基于统计的方法,通过对语料库中的词条组成或特征信息进行统计来识别新词;三是基于统计和规则相结合的方法。

基于规则的方法优点是准确率高,针对性比较强,但是建立规则和维护规则会出现很大的困难。而且规则一般都是与某些领域相关的,因此移植性和适应性都比较差。而基于统计的方法优点是灵活,适应能力强,可移植性比较好,但是需要大规模的语料库进行训练。并且由于可统计的特征比较少,一般都会存在数据稀疏,提取准确率比较低的缺点。本发明主要是结合基于规则和统计的方法来进行新词的识别。

本发明是基于规则和统计相结合的方法提取网络新词,主要是将新词的形成模式与统计其词频相结合,对不同的模式采用不同的提取方法,不同的垃圾串新词过滤方法,最后结合词频信息,提取不同模式的新词。

发明内容

针对现有技术的不足,本发明的目的是提出一种基于词的形成模式的网络新词自动识别技术,具体地是一种在新词形成模式的基础上,基于大规模短文本语料库的网络新词自动识别技术。

根据本发明的一个方面,提一种中文单字串模式和词缀模式的新词自动识别技术,通过分析短文本中出现新词的规律,基于大规模短文本语料库,自动识别短文本中的新词,其包括如下步骤:a. 对大规模短文本进行中文分词,并将每一条短文本的分词碎片相适应地存储;b. 对于每一条短文本的分词碎片进行分析,查找碎片中的单字串潜在新词以及词缀模式潜在新词;c. 对于单字串潜在新词,首先提取单字串潜在新词对应的最长潜在新词,统计每个最长潜在新词出现的频次,存入单字串潜在新词集;然后根据最长潜在新词及其频次,提取最长潜在新词的每个子串,统计每个子串的频次,存入单字串潜在新词集;d. 对于词缀模式的潜在新词,提取每个词缀模式潜在新词,统计每个词缀模式的频次,存入词缀模式潜新词集中;e. 对于所述的单字串潜在新词集和词缀模式潜在新词集中的对象分别进行过滤操作;f. 对于每个潜在新词,若其频次大于第一阀值,则将该潜在新词作为所述中文新词。

优选地,本技术主要是针对单字串模式和词缀模式两种,分别采用不同的方法实现。对于单字串新词来说,每个单字串新词(New Word)是由单个的汉字组成的,本发明主要讨论NW11(1+1形式,由单个汉字与单个汉字组成的新词),NW111(1+1+1形式,由三个连续的单个汉字组成的新词),或NW1111(1+1+1+1形式,由四个连续的单字组成的新词);对于词缀模式的新词来说,它是由单个汉字和前/后缀词语组成,本发明主要讨论NW12(1+2形式,由一个单字紧跟着一个二元词语组成),NW13(1+3形式,由一个单字紧跟着一个三元词语组成)或NW21(2+1形式,由一个二元词紧跟着一个单字组成),NW31(3+1形式,由一个三元词紧跟着一个单字组成)。本发明采用网络上的新闻标题作为新词识别的语料库,采用统计和规则相结合的方法进行新词识别。对新词的以上两种形成模式,即单字串新词和词缀新词,分别对这两类新词进行识别。

通过本发明,大大提高了中文分词技术的正确率,使中文分词工具的词典的创建变得相对容易实现,从而能够应对中文语言在各个领域不断涌现的新词。本发明在一定程度上突破了中文信息处理领域上的瓶颈,同时对于输入法细胞词库更新,机器翻译,语言学应用和信息检索等领域都有较为重要的意义。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1示出根据本发明的一个具体实施方式的,中文新词自动识别的流程图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110236723.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top