[发明专利]一种基于类型论的汉语分词方法无效

申请号：	200910078879.0	申请日：	2009-03-05
公开（公告）号：	CN101499058A	公开（公告）日：	2009-08-05
发明（设计）人：	高东平;牛振东;江鹏;吕乐宁;郭佳宏	申请（专利权）人：	北京理工大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	北京理工大学专利中心	代理人：	张利萍
地址：	100081北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于类型汉语分词方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种基于类型论的汉语分词方法，属于计算机应用技术领域。

背景技术

所谓分词，就是把一个句子按照其中词的含义进行切分。与英文不同，汉语中最小的单位不是词而是字，但具有一定语义的最小单位却是词。而中文文本在书面表达或在计算机内部表示时，字与字之间、词与词之间并没有明显的切分标志，即汉语句子中词与词之间的边界标志是隐含的，而中文信息处理的诸多重要领域如篇章理解、机器翻译、文本校对等都要求在词这一层面上进行处理。因此，就具有了汉语分词这一任务。汉语分词技术已成为中文信息处理技术中的最为基础的课题。

目前国内诸多科研机构和公司都针对汉语分词的特点提出过各种各样的模型、方法。总的来说，这些方法可以分为三类：基于规则的方法；基于统计的方法；规则、统计相结合的方法。每一类方法中，又包含各种各样的模型。例如：基于规则的方法中有：最大匹配分词、基于错误驱动的词性标注、基于规则的命名实体识别等方法；基于统计的方法包括，n-gram模型分词、隐马尔科夫(HMM)词性标注与最大熵(ME)模型等；统计与规则相结合的混合方法，则主要是综合利用语言统计信息与语言本身的知识，往往具有更好的性能，如采用层次隐马尔科夫模型、采用基于类的语言模型等。

虽然诸多学者对汉语分词都提出了自己的处理方法，但是根据目前的各种方法设计的汉语分词系统对于交叉歧义、组合歧义的消解和未登录词的识别这两大分词难点仍然没有完全解决。

交义歧义和组合歧义，这两种歧义属于句法层面的歧义，其定义如下：

定义：若汉字字串ABC能被分割为AB/C或A/BC两种形式，其中AB和BC都词典L中的词，则称字串ABC具有交叉歧义。若汉字字串AB能分割为AB或A/B两种形式，其中AB，A和B都是词典L中的词，则称字串AB是组合歧义。

未登录词则主要是指根据词典不能正确识别出的词。

现有分词技术中语义理解的成分都不是很多，因此，在开放测试下对未登录词(人名、地名、商标名等词典中没有的词)的正确识别程度远不能令人满意，没有一种技术手段在识别的过程中可以自动检测识别出的未登录词是否正确，对于组合歧义和交叉歧义消解的各种方案在开放测试下也不能得到令人满意的准确度和召回率。而且现有的分词方法，往往是针对汉语分词中两大瓶颈问题(未登录词和消歧)的一个而设计，甚至解决的只是一个瓶颈问题的局部(如针对人名识别提出的模型，针对交叉歧义提出的模型等)，很少方法是在一个统一的理论框架下解决汉语分词的两大难题。

类型论是上世纪初英国逻辑学家罗素(B.Russell)为排除集合论悖论而提出的一种关于类的逻辑理论。以蒙太格语义学为代表的逻辑语义学把语句的句法分析和语义解释看成是同构的。即认为词的组合成句及其语义的模型论解释有着一一对应的关系，也就是说，语义解释是从句法代数到语义代数的同构映像。类型论使得这种同构映像成为可能。类型论方法是分析自然语言形容词，副词，命题态度词和限定词的量化语义特征的有力工具。

基本类型论中，类型的定义如下：

定义：类型的集合S是最小集，使得：

(1)e，t∈S；

(2)如果a，b∈S，那么<a，b>∈S；

此外，S中不包含其他元素；

其中，e，t为基本类型，e代表个体，t代表真值。

此定义说明的是：e，t是类型，e和t复合所生成的是类型；两个类型进行复合得到的也是类型。例如，et是类型；et和et进行复合得到的仍然是类型(et(et))。

在简单类型论中，类型所对应的表达种类和解释如下：

表1.简单类型论中的类型设计

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京理工大学，未经北京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】