[发明专利]基于改进最大匹配算法的交叉型伪歧义识别方法无效
申请号: | 201210050154.2 | 申请日: | 2012-02-24 |
公开(公告)号: | CN102622339A | 公开(公告)日: | 2012-08-01 |
发明(设计)人: | 周俊;郑中华;张炜 | 申请(专利权)人: | 安徽博约信息科技有限责任公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 230000 安徽省合肥市高*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进 最大 匹配 算法 交叉 歧义 识别 方法 | ||
[技术领域]
本发明涉及汉语自动分词算法技术,尤其涉及一种基于改进最大匹配算法的交叉型伪歧义识别方法。
[背景技术]
人工智能(Artificial Intelligence,AI)已经不再是鲜为人知的名词,从初步提出到现在,经过五十多年的研究发展,已经在机械制造、信息控制、航空航天以及仿生学等各学科领域得到广泛的应用。自然语言理解(Natural Language Processing,NLP)即是人工智能的一项重要分支,也是实现人工智能技术其他分支领域的重要基础,如专家系统的知识学习、控制领域的语音控制、搜索引擎的智能搜索等等,都以NLP为分析基础,因此NLP是一项在人工智能领域具有重大研究意义的技术课题。
根据自然语言的类别不同,自然语言理解分为多个研究方向,其中最主要的包括英语自然语言理解与汉语自然语言理解,英语自然语言理解相对于汉语自然语言理解要容易的多,因为英文语句本身就是由具有完整语义的最小单元(即英语单词)组成,而汉语语句是由连续的汉字组成,单个汉字并不具有表达完整语义的能力,汉语中具有完整语义的最小单元是词条,因此,在汉语语句的语义理解之前,需要将由连续汉字组成的汉语语句切分成词条的集合,以作为汉语自然语言理解的数据基础,这一过程称为汉语分词。汉语分词是汉语自然语言理解的基础步骤,也是关键一步。
汉语分词过程中的主要难点之一就是歧义识别。所谓歧义识别,是指在汉语分词过程中检测出输入汉语语句中存在的所有歧义并加以消解的过程,包括歧义检测和歧义消解两项关键技术。歧义检测是在输入语句中定位歧义,如果该语句中存在歧义;歧义消解则是对已定位的歧义进行消解,并输出消解结果,即歧义的正确切分路径。
由于汉语语言的灵活性,歧义也具有多样性,不同类别的歧义,需要采用不同的方法进行歧义检测和消解。根据歧义本身是否是词条,可将歧义分为组合型歧义和交叉型歧义两类,组合型歧义是指歧义本身就是一个汉语词条,如“懂高科技的人才能解决这个问题”,“人才”是分词歧义,即可分为“人”和“才”两个词条,也可看成“人才”一个词条,歧义本身是一个词条,因此“人才”是组合型歧义;交叉型歧义可理解为歧义本身不是一个词条的歧义,如上例“该厂的技术和服务都是一流”,分词歧义“和服务”不是一个词条,故属于交叉型歧义。根据歧义正确分词方式的数目,可将其分为真歧义和伪歧义两类,真歧义是指歧义可能具有两种或两种以上正确切分方式的歧义,如歧义“中国家居”,在语句“发展中国家居事业”中切分为“中国”和“家居”两个词条,而在语句“发展中国家居世界中等水平”中应分为“中”、“国家”和“居”三个词条;伪歧义是指在任何语境下都只有一种正确切分方式的歧义,如歧义“案发现场”,在任何语境下都会切分为“案发”和“现场”两个词条,而不会切分成“案”、“发现”和“场”三个词。显然,组合型歧义全部属于真歧义。
根据大规模流通语料库的统计显示,交叉型歧义占所有歧义中得90%以上,而在所有交集型歧义中,交叉型伪歧义(下文简称伪歧义)占一半以上的比例。因此,伪歧义是最常见的汉语分词歧义。
现有技术一的技术方案
基于记忆的伪歧义识别方法在伪歧义识别中应用较广,该方法主要利用伪歧义具有唯一正确切分路径的性质,通过对大规模语料库的统计,得到所有交叉型歧义,然后过滤交叉型真歧义,得到伪歧义集合,最后将所有伪歧义收录于伪歧义词表,在汉语分词时通过伪歧义词表查找匹配汉语语句以实现歧义检测,对检测出的伪歧义直接通过查询伪歧义词表获取消解方案。该方法识别准确率高,而且原理简单,操作容易,但是歧义检测和歧义消解都完全依赖于伪歧义词表,受伪歧义词表规模影响很大,故而召回率不高。该技术方案简要执行流程图如图3所示。
现有技术一的缺点:
1,统计语料库无法包含所有的交叉伪歧义,因此伪歧义词表不可能收录所有的伪歧义,故而该技术在歧义检测时无法保证检测出所有的伪歧义,最终造成伪歧义的检测遗漏,并导致伪歧义的识别召回率较低;
2,某种交叉型真歧义在统计语料库中可能只出现一种切分路径,从而容易误被处理为伪歧义而收录于伪歧义词表,最后造成歧义的识别错误,这是限制该方案准确率上升的根本原因,而且也很难做到完全消除;
3,歧义的识别方式较机械化,完全不能识别未被伪歧义词表收录的伪歧义,识别召回率受伪歧义词表的规模影响很大,因此需要不断更新和维护伪歧义词表,以收录更多的伪歧义,扩大伪歧义词表的规模,以尽可能提高伪歧义识别的召回率。
现有技术二的技术方案
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽博约信息科技有限责任公司,未经安徽博约信息科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210050154.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于微缺陷的激光超声检测方法
- 下一篇:船闸自动防淤廊道系统