[发明专利]一种基于滑动语义串匹配的句法分析方法有效
| 申请号: | 201310492589.7 | 申请日: | 2013-10-18 |
| 公开(公告)号: | CN103500160A | 公开(公告)日: | 2014-01-08 |
| 发明(设计)人: | 王伟;黄德根 | 申请(专利权)人: | 大连理工大学 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 大连理工大学专利中心 21200 | 代理人: | 李宝元;梅洪玉 |
| 地址: | 116024*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 滑动 语义 匹配 句法 分析 方法 | ||
技术领域
本发明属于计算机自然语言处理领域,涉及一种对人类自然语言句子进行高质量的句法分析的方法,具体是指一种基于滑动语义串匹配的句法分析方法。
背景技术
句法分析是对自然语言句子进行一系列的解析,主要分析出句子的句法成分以及它们之间的关系,通常的输出结果是以句法树作为表现形式。
句法分析是自然语言处理过程中一个至关重要的环节,同时又是一个公认的难点问题。因为它是很多具体应用的基础,比如自动问答系统、语义检索、文本摘要、故事理解,甚至机器翻译等等。如果这个环节不能把给定的句子分析正确,那么,依赖它的后续处理的性能就难以保证。由于人们对高性能的信息处理系统的迫切要求,句法分析的质量问题已经成为了自然语言处理发展道路上的一个瓶颈问题,句法分析本身也是一个不可回避的研究课题。
句法分析通常都是以词性为基础进行分析,由于词性信息粒度太粗,导致很多歧义发生,因此很难从多个歧义结构中选择到一个正确的句法树,后来虽有利用概率性信息来优选最终的句法树,并也取得了一定的效果,但是要再进一步提升性能就很难。考虑到词性信息粒度太粗的问题,以后的句法分析开始把词的信息考虑进来,主要是中心词驱动方法。但是词的信息粒度太细,使得数据稀疏问题严重,因此效果提升不是很大。考虑到词性信息粒度太粗,而词的信息粒度又太细,因此采用语义码来代替词进行句法分析的这种方法已经提出来并被使用(苑春法等1999,曹雁锋等2005,曹海龙2006,张耀中2008,吴玺宏等2009,樊扬2010,代印唐等2011),其中的语义信息来源,有的是基于语义词典,比如知网和同义词词林等;有的是通过聚类的方式获得;有的通过将词性进行次范畴化。但是,这些应用语义码的方法都是基于上下文无关文法的,或者是先采用上下文无关文法的句法分析,然后再用语义信息从多个歧义结果中进行优选。由于上下文无关文法没有很好地考虑上下文信息,而且大多数仅是基于二元数据的生成规则,对于自然语言中存在的多元长度的信息关联,甚至超远距离信息关联情况的句法分析,就鞭长莫及。因此,这种考虑语义的上下文无关文法的句法分析的性能虽有提高,但仍然没有达到一个很好效果。因此,如何解决上下文无关文法所存在的上下文信息覆盖不足的问题,或者转而采用上下文有关文法来进行句法分析,就成为了一个值得研究的课题。
采用面向数据驱动的句法分析(DOP)也有研究,主要是充分利用大规模标注的句法树库,首先分解句法树为若干的子树,建立子树模式库;然后在进行句法分析时,将待分析的句子进行切片,通过特定算法把这些分片的片段与子树模式进行某种匹配,拼凑成完全的句法树(张玥杰等2000,张亮等2007,郭海旭等2009)。该方法目前主要也是使用词性和词的信息,没有使用语义编码信息,会存在一定的数据稀疏问题。另外,这种切片的分界点很难把握,如果句子分段切分得不好,会导致最终的分析结果错误。因此,如何能保证合理地正确切分以及如何减少数据稀疏是该方法要解决的问题。
基于层叠组块式句法分析现时被使用(Steven Abney1996,耿向好2008,陈雪艳等2008,周国栋等2009,郑伟发2009,Qiaoli ZHOU等2009,Zhipeng Jiang等2010,Zhou qiao li等2010)。对于如何获取正确的组块规则,已经进行了很多研究,从最大长度匹配的方法直到机器学习的最大熵方法、层叠隐马尔科夫、层叠条件随机场等方法都有使用。在进行每一层组块操作时,在某种意义上已经考虑一定程度的上下文关联信息,但是由于自然语言会存在长的上下文信息关联的情况,而机器学习方法由于时间和存储空间限制,上下文关联的长度不能很大,而且目前的大部分都是基于词性或词的某种组合的信息,很少使用语义编码信息。因此导致每一层的组块的正确性也不是很高,而且由于层叠组块方法不具备回溯能力,使得低层的一点错误会在后面高层逐渐地被放大,导致最后的分析结果不理想。因此,如何提高组块分析过程中的每一层的正确性是该方法亟待解决的问题,特别是如何引入回溯机制进行错误修正是一个值得研究的课题。
由于自然语言是不断发展的,新的语言现象总会不断出现,这样就要求系统能随时吸收新的语法知识到系统的规则库中,以便系统具有的语言知识不至于脱离实际太远,因此机器具有学习能力是不可缺少的。但是现有的基于统计的机器学习方法,学习时间都普遍比较长,有的都是几十小时以上,很不便于机器即时更新信息库,导致了系统性能不能及时同步提高。因此,系统如何快速地获取新语言现象的信息,以便动态提高系统性能,也是句法分析系统一个需要面对的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310492589.7/2.html,转载请声明来源钻瓜专利网。





