[发明专利]一种中文处理中基于语义角色信息的指代消解方法无效

专利信息
申请号: 200810243606.2 申请日: 2008-12-10
公开(公告)号: CN101446943A 公开(公告)日: 2009-06-03
发明(设计)人: 朱巧明;周国栋;孔芳;李培峰;钱龙华;李军辉;钱培德 申请(专利权)人: 苏州大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 苏州创元专利商标事务所有限公司 代理人: 陶海锋
地址: 215123江苏省*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 中文 处理 基于 语义 角色 信息 指代 消解 方法
【说明书】:

技术领域

发明涉及一种自然语言的语义处理的方法,尤其涉及一种对中文的处理中基于语义角色信息进行指代消解的方法,属于计算语言学中的自然语言处理领域。

背景技术

指代(Anaphora)是自然语言中广泛存在的一种现象,它可分为两种:回指(Anaphora),是指当前的指代语与上下文出现的词、短语或句子(句群)存在密切的意义关联性;共指(Coreference),是指两个实体指向真实世界中的同一参照物。目前的指代消解研究主要侧重于共指消解,即要解决的主要问题是寻找出文章中不同名词性短语是否指向同一个实体。

指代消解是自然语言处理的关键和热点问题之一,在自然语言的篇章理解中举足轻重。一篇引人入胜的文章必然采用多样的表达方式来表示同一个实体,随着篇章理解的相关应用日益广泛,指代消解也显示出前所未有的重要性,它是自然语言处理中不可缺少的部分,在文本总结(Text Summarization)、机器翻译(Machine Translation)、多语言信息处理(Multilingual InformationProcessing)和信息提取(Information Extraction)等诸多应用中都涉及到指代消解问题。因此,1997年的EACL和1999年的ACL年会都设立了指代消解的专题会议,而且指代消解也是MUC和ACE信息抽取评测体系中的一个主要任务。因此必须加强指代消解的研究,通过指代消解的研究,可以实现相关信息的融合,从而获得相应信息在单/多文本中的完整描述。

指代消解的研究历史悠久。许多早期的方法侧重于理论探索,运用大量手工构建的语言甚至领域知识,进行指代消解的研究。近十年来,随着自然语言处理技术的发展,对指代消解技术的应用需求越来越迫切,研究者开始转向基于弱语言知识的方法,侧重于实用的指代消解技术的研究开发,并取得了一定的进展。但由于受制于弱语言知识,指代消解技术近年来在性能的继续提高上遇到了不小的瓶颈,研究人员开始把焦点转向了基于自动产生的深层语言知识,特别是结构化句法信息方向,以期望取得性能上的突破。

早期指代消解研究主要利用大量手工构建的领域和语言知识形成逻辑规则进行消解,降低了系统的可移植性和自动化程度。随着标注语料库的出现以及Internet的迅速发展,实验语料的获得越来越方便,目前大多数的指代消解研究趋向于基于语料库的指代消解方法。

与国际上指代消解的长期研究相比,自然语言处理领域的中文指代消解的研究只是刚刚起步,主要集中在人称代词的消解研究方面。相关的研究可分为两类:

第一类是引用国际上流行的研究方案进行中文指代消解的研究。相关的代表性研究有:王厚峰等(2001)根据中文人称代词的语义角色和对应的先行语可能的语义角色,给出了消解人称代词的基本规则;王凌飞等(2000)提出了指代确定的9个限制条件,探讨了基于中心理论的指代消解在汉英机器翻译中的应用;张威等(2002)实现了基于中心理论的元指代消解;孔祥勇等(2003)结合了规则和统计方法,解决代词和定指短语的指代问题;王晓斌等(2004)进行了基于语篇表述理论的人称代词的消解研究;王厚峰等(2005)采用了近似Mitkov(1998)的基于弱化语言知识的方法,解决人称代词的消解;杨佳等(2005)使用遗传算法消解人称代词;李国臣等(2005)使用决策树机器学习算法,结合优先选择策略,进行指代消解的研究。

第二类是根据中文的特点提出的具有中文特色的研究方案。相关的研究有:许敏等(1999)利用格框架,提出了在上下文相关语义环境中进行指代分类解决的思想,并给出了相应的算法。王厚峰(2000)提出了基于HNC的指代消解方法,利用各种语义块的类型特点和语义块之间的结构特点,在语义块内部和语义块之间使用排除规则,并使用局部焦点优先的原则(与中心理论类似)进行优先选择,实现语句序列之间人称代词的消解。

从指代消解的国内外研究现状可以看到,随着机器学习方法的引入,结合相关的领域知识(多以规则的形式体现),指代消解有了长足的发展,但还存在一些问题,例如:深层次语义信息在指代消解领域的应用不够充分。自然语言处理中,语义信息起了至关重要的作用。然而目前,许多应用都是通过使用类似WordNet这样的语义字典来获取语义信息,但数据库中的语义信息毕竟是有限的,数据稀疏问题必然存在。

发明内容

本发明目的是本发明的目的是提供一种高性能的指代消解方法,通过充分利用语义信息,提高在中文信息处理中的指代消解的性能。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810243606.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top