[发明专利]一种基于重复字串的微博新词非监督自动抽取方法在审
申请号: | 201310719081.6 | 申请日: | 2013-12-23 |
公开(公告)号: | CN103678656A | 公开(公告)日: | 2014-03-26 |
发明(设计)人: | 孙晓;李承程;叶嘉麒;唐陈意;任福继 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 230001 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 重复 字串 新词 监督 自动 抽取 方法 | ||
技术领域
本发明属于新词语检索方法技术领域,涉及一种基于重复字串的微博新词非监督自动抽取方法。
背景技术
新词识别是困扰中文自动分词领域的主要问题之一,而随着微博的发展,加速了新词的出现速度。新词的非监督自动识别对于其他自然语言处理任务至关重要。中文文本的自动切分是自然语言处理领域一项重要的基础工作。新词的识别和处理是制约中文分词系统精度进一步提高的困难之一。目前,新词抽取研究主要集中在实体名词的抽取,特别是人名、地名、机构名的抽取。其他新词在构成上基本没有普遍的规律,相关的研究较少,识别率也很低。新词抽取所使用的方法主要有基于统计和基于规则的方法。基于统计的方法容易实现,但受统计语料的影响非常明显;基于规则的方法准确率高,但对规则库完备性有很大的依赖性。
发明内容
本发明的目的在提供一种基于重复字串的微博新词非监督自动抽取方法,解决了现有的新词抽取准确率低,对规则库完备性依赖程度性高的问题。
本发明所采用的技术方案是先对待处理的微博文档进行文本切分,利用动态规划的分词方法切分文本,切分出待识别的字串,将待识别字串中切词碎片组合,组合成待识别的新词,然后根据统计选词模型从待识别的字串提取出候选新词,紧接着利用规则过滤模型对候选词进行过滤,最后得到最终的新词。
本发明的技术特点还在于动态规划的分词方法为:首先用最长次匹配法切分待处理文本,建立候选词路径有向图,然后计算图中每个节点的代价值,接着利用Dijkastra算法计算出最小代价路径,得到最佳切词路径。统计选词模型基于大量微博语料进行统计,包括基于局部重复字串的特征和基于全局用词信息的特征;基于局部重复字串的特征包括:字串共现次数和基于字串共现次数的互信息;基于全局用词信息的特征包括成词率、位置相关成词率、构词相似度;规则过滤模型包括停用词表、姓氏成词率的调整规则、量词词首停用的规则。
本发明的有益效果是有效的保证了较高的准确率,并不过分依赖规则字库,同时保证了新词的抽取速度。
附图说明
图1是本发明一种基于重复字串的微博新词非监督自动抽取方法的多字字串与二字词的互信息特征值比较图;
图2是本发明多字词和二字词的IWP特征比较图;
图3是本发明二字词和多字词的POS_IWP值比较图。
具体实施方式:
下面结合附图和具体实施方式对本发明进行详细说明。
先对待处理的微博文档进行文本切分,利用动态规划的分词方法切分文本,切分出待识别的字串,将待识别字串中切词碎片组合,组合成待识别的新词,动态规划的分词方法为:首先用最长次匹配法切分待处理文本,建立候选词路径有向图出自论文:【孙晓,黄德根.基于最长次长匹配分词的一体化中文分词与词性标注[J].大连理工大学学报.2010.,50(6):1028-1034.】,然后计算图中每个节点的代价值,接着利用Dijkastra算法计算出最小代价路径,得到最佳切词路径。例:设句子S=C0C1C2……Cn,其中S代表句子,Ci(0≤i≤n)表示句子S中的第i个汉字,根据最长次匹配法将句子S所有可能的切分路径组成有向图DAG。令DAG=<V,E,Ψ>,其中,V={Pi|0≤i≤(m+1)}为节点P的集合,m为句子中字的个数;E={eij|i<j,0≤i≤m,1≤j≤m+1}为图中边e的集合,eij表示从节点Pi指向节点Pj的有向边;Ψ={eij=<Pi,Pj>},表示边eij与节点Pi和Pj的关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310719081.6/2.html,转载请声明来源钻瓜专利网。