[发明专利]基于线性模型的汉语词法分析方法无效
| 申请号: | 200810114950.1 | 申请日: | 2008-06-13 | 
| 公开(公告)号: | CN101295295A | 公开(公告)日: | 2008-10-29 | 
| 发明(设计)人: | 姜文斌;黄亮;刘群;吕雅娟 | 申请(专利权)人: | 中国科学院计算技术研究所 | 
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 | 
| 代理公司: | 北京泛华伟业知识产权代理有限公司 | 代理人: | 王勇 | 
| 地址: | 100190北京*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 基于 线性 模型 汉语 词法 分析 方法 | ||
技术领域
本发明涉及统计自然语言处理技术领域,特别统计汉语分词和词性标注。
背景技术
汉语词法分析的目标有两个:分词和词性标注。分词就是将字与字之间紧密相连的汉语语句按词进行划分,从而将汉字序列转化为汉语词序列;词性标注在分词的基础上,给每个汉语词标上一个词性标记,例如动词VV、名词NN等等。对于给定的汉语语句,如何既分词又进行词性标注呢?有两种策略:一种是先进行分词,再在分词的基础上进行词性标注;另一种是在分词的过程中就考虑到词性标注。很明显,前一种策略将分词和词性标注割裂成两个独立的阶段。因此,分词阶段产生的错误不能被词性标注阶段修所正;后一种策略将分词和词性标注同时进行,两个过程的可以相互利用对方的信息,增加了模型的容错能力,从而提高了准确性。因此,现有的汉语词法分析技术多采用第二种策略。
在汉语词法分析领域,当前流行的方法是,通过用基于字特征的分类器对汉语语句的各个汉字进行分类来获得分词与标注的结果[Hwee Tou Ng andJin Kiat Low,2004,Chinese part-of-speech tagging:one-at-a-timeor all at once?Word-based or character-based?EMNLP]。利用基于字特征的分类器进行分词的优点是泛化能力强,它与基于词典的分词系统相比,拥有更好的识别新词的能力。原因是,基于词典的方法无法进行切分时,无法分出词典之外的词。换句话说,基于词典的方法只能用词典中已经有的词去拼接出输入语句。但是,现有的基于字特征分类器的分词系统的分词模型单一,且难以直接利用从语料库得来的某些统计信息(比如:某个词被标注为某个词性标记的可能性有多大?某个词性标记序列出现的可能性有多大?某个词语序列出现的可能性有多大?),因此,现有的基于字特征分类器的分词系统的切分和标注的精确度均有待提高。
发明内容
本发明的目的是克服现有技术的不足,将感知机模型和多种线性模型结合起来对语料库进行综合分析,对各模型的分析结果进行加权求和,从而提供一种能够提高切分和标注精确度的基于线性模型的汉语词法分析方法。
为实现上述发明目的,本发明提供的基于线性模型的汉语词法分析方法,如图1所示,包括如下步骤:
1)输入汉语语句,设定分析窗口长度,
2)对语句进行逐字分析,对语句中的每一个字,将该字时间窗口内的字或字元组输入感知机分类器,得出当前字标注为某一分词标注和词性标注的感知机模型得分;同时,将该字时间窗口内的字或字元组输入线性词法分析模型,得出当前字标注为某一分词标注和词性标注的线性词法分析模型得分;
3)感知机模型得分和线性词法分析模型得分加权求和得出综合分析得分,将综合分析得分最高的分词标注和词性标注做为当前字的分词标注和词性标注;当所有字的分词标注和词性标注均标注完成时,所述汉语语句的词法分析完毕。
上述技术方案中,所述步骤2)中,所述线性词法分析模型为词语序列语言模型、词性标记序列语言模型以及词-词性对集合的共现分数模型中的任意一个或多个加权组合。
上述技术方案中,所述步骤2)中,所述当前字的词语序列语言模型得分是在当前字的前n-1个字的分词标注结果为已知的前提下,当前字在语料库中出现某一分词标注的概率,所述n为所述分析窗口长度。
上述技术方案中,所述步骤2)中,所述当前字的词性标记序列语言模型得分是在当前字的前n-1个字的词性标注结果为已知的前提下,当前字在语料库中出现某一词性标注的概率,所述n为所述分析窗口长度。
上述技术方案中,其特征在于,所述步骤2)中,所述词-词性对集合的共现分数模型得分是以极大似然估计法在训练语料中统计得到的某一词与某一词性共现的概率。
上述技术方案中,所述步骤3)中,所述加权求和所需的加权系数通过最小错误率训练方法得到。
本发明具有如下技术效果:
本发明中,底层的基于字特征的感知机分类器使得模型具有很强的泛化能力,而高层的线性模型融合了难于直接融入感知机的非局部特征,显著的提高了切分和标注的精确度。
附图说明
以下,结合附图来详细说明本发明的实施例,其中:
图1本发明的词法分析流程图。
具体实施方式
本发明提供的基于线性模型的汉语词法分析方法,包括如下步骤:
1)输入汉语语句,设定分析窗口长度,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810114950.1/2.html,转载请声明来源钻瓜专利网。





