[发明专利]一种高精度汉语谓词识别方法有效

专利信息
申请号: 201310080760.3 申请日: 2013-03-14
公开(公告)号: CN103150381A 公开(公告)日: 2013-06-12
发明(设计)人: 罗森林;白建敏;潘丽敏;韩磊;魏超 申请(专利权)人: 北京理工大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/28
代理公司: 暂无信息 代理人: 暂无信息
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 高精度 汉语 谓词 识别 方法
【说明书】:

技术领域

发明涉及一种基于规则和统计相结合的汉语谓词识别方法,属于自然语言处理与机器学习领域。

背景技术

自然语言处理技术在词法和句法上的研究已经取得了重大进展,相比较而言,对语义、语用和语境知识的研究一直是一个难以跨越的瓶颈。要想让计算机真正的理解自然语言,语义分析是必经之路。谓词识别是进行进一步语义分析的基础,对于语义分析的后续工作起着关键性的作用,因此,高准确率、高效率的谓词识别方法尤其重要。

汉语谓词识别需要解决两个基本问题:1.如何提取代表性强、区分度高的规则或者特征组合来约束或者表征谓词;2.采用何种准确率高、判定速度快的模型来识别谓词。综观现有谓词识别方法,主要是基于规则的方法和基于统计的方法,还有规则和统计相结合的方法。

1.基于规则的方法

规则的方法通常由语言学家基于语料和内省的办法构造规则库进行自然语言处理,对于语言学的知识有很好的概括性和解释性,但是因为规则的颗粒度大小、覆盖面大小、规则间竞争冲突等问题很难把握,基于规则的方法有其瓶颈之处。主要的方法有:

(1)面向基于实例的汉英机器翻译系统(Example-Based Machine Translation,EBMT)的汉语谓词识别:该方法提出了一种折中的汉语句子分析方法—骨架依存分析法,通过确定谓词来把握句子的整体结构,提出了一种根据汉英例句集合中英语例句的谓词来识别相应的汉语例句的谓词的策略。对例句集合中的3000汉语例句进行谓词的自动识别,识别准确率达到87.3%。

(2)面向科技论文的谓词识别:该方法是针对科技论文这一特定文体的句法分析研究提出的谓词识别,仅对动词做中心谓词(限于句子第一层的谓词)的情况进行了识别,没有给出实验的具体识别准确率。其识别的基本步骤为:1)按照字典对句子(以句号结尾)进行分词,将具有动词性质的词放入集合D中;2)若D为空则给出错误信息;若D中只有一个元素则用一部分规则判断,然后转入句法分析;否则转入第三步;3)运用另一部分规则删去D中不属于中心谓词的动词,若D为空则给出错误信息;否则转入第四步;4)运用剩余的规则找出中心谓词。

(3)利用主语和谓语的句法关系识别谓词:在利用谓词候选项的静态语法特征和动态语法特征来识别谓词的基础上,提出了一种利用句子的主语和谓语之间句法关系来识别谓词的方法。该方法的具体步骤为:1)根据词性选择出主语的初始候选项和谓词的初始候选项;2)根据在训练集中习得的特征对谓词候选项进行进一步筛选,将一些可以成为主语的谓词候选项归入主语候选项的集合;3)对主语候选项进行一定的连接,使句子的结构更加清晰,并为下一步判别句子的类型做准备;4)判别句子的类型,并根据结果选择出谓词候选项所具有的句法特征;5)将谓词候选项具有的特征组织并计算,计算得出的值作为度量谓词候选项的标准。经过测试,谓词的识别准确率达到了91.3%(开放测试中的结果)。

(4)面向数据分析的谓词识别:该方法提出面向事件描述小句的汉语自动句法分析的方法和步骤,在句法分析之前对真实语料进行小句划分的预处理,预处理阶段采用一种基于谓词识别和规则方法,将汉语句子分割成多个事件描述小句;然后基于DOP对汉语事件描述小句进行句法分析;最后通过组合处理实现完整句子的句法分析。该方法的好处是可以将句法分析的任务分步处理,将词数较多的复杂句简单化,从而提高句法分析的速度和精度。谓词识别是作为事件描述小句识别的一部分开展的。该方法基于CIPS-ParsEval-2009提供的171篇TCT训练语料,对动词、形容词做谓词的情况均进行了识别,取得了89.94%的识别准确率。

2.基于统计的方法

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310080760.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top