[发明专利]一种自然语言句子的语义角色标注方法无效

专利信息
申请号: 200810243605.8 申请日: 2008-12-10
公开(公告)号: CN101446942A 公开(公告)日: 2009-06-03
发明(设计)人: 王红玲;朱巧明;钱培德;孔芳;李培峰;周国栋;钱龙华 申请(专利权)人: 苏州大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 苏州创元专利商标事务所有限公司 代理人: 陶海锋
地址: 215123江苏省*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 自然语言 句子 语义 角色 标注 方法
【说明书】:

技术领域

发明涉及一种对自然语言的语义分析的方法,尤其涉及一种对自然语言句子的语义角色进行分析和标注的方法,属于计算语言学中的自然语言处理领域。

背景技术

语义分析是自然语言处理的一个关键问题。作为目前的热点研究课题之一,语义角色标注(Semantic Role Labeling,SRL)是浅层语义分析(ShallowSemantic Parsing)的一种,其实质是在句子级别进行浅层的语义分析。所谓语义角色标注,就是对于给定句子,对句中的每个谓词标注出句中的相应语义成分,并作相应的语义标记,如施事、受事、工具或附加语等。SRL能应用于问答系统、信息抽取、文本摘要、文本蕴含等领域,具有广泛的应用前景。

基于机器学习的语义角色标注通常可分为四个阶段:a)预处理,通常过滤掉不可能成为语义角色的句法成分;b)语义成分识别,识别出哪些标注单元是某一目标谓词的语义角色;c)语义角色分类,为识别语义成分的单元进行语义角色的分类;d)后处理,对标注的语义角色进行全局优化,确定合理的角色组合。其中,识别和分类阶段一般使用局部推导。所谓局部推导是指独立决定句中每个成分的语义标签,而不依赖于其他成分的标注,这样训练得到的模型称为局部模型。相应地,全局推导一般发生在后处理阶段。所谓全局推导是指在局部推导的基础上,考虑各成分标签之间的依赖关系,通过全局模型集成相关硬限制和软约束条件,从而得到合理的语义角色组合。通常,合理地集成局部模型和全局模型,能大大提高系统的性能和健壮性。

局部模型的学习方法通常可分为两类:基于特征向量的方法和基于核函数的方法。从目前而言,基于特征向量的方法,取得了较大的成功,速度和性能都大大优于基于核函数的方法。

基于特征向量的方法需要人为定义大量具有区分度的特征模板,然后根据此模板将每个实例转化为特征向量进行学习或预测操作。目前主要集中于特征工程和机器学习模型的研究。但由于基于特征向量的方法仅仅反映了待标注单元的局部信息,不能很好地反映全局信息和结构化句法信息,因此人们探索基于核函数的方法进行语义角色标注。基于核函数的方法的基本思想是将低维线性不可分问题映射到高维空间,使之成为线性可分问题。通常这种映射可以通过计算核函数隐式达到,从而降低时间和空间复杂性。核函数能很好的融入支持向量机、感知器等学习算法,因而引起了人们广泛的兴趣。

自然语言处理任务包括词性标注、句法分析、语义分析、信息抽取等,通常是按序进行的,即后一项任务在前一项任务的基础上进行,例如语义角色分析通常要基于句法分析的结果。句法分析(Syntactic Parsing)是自然语言处理的一个基本问题和关键技术。它的任务是根据给定的语法,自动推导出句子的语法结构,即句子所包含的句法单位以及这些句法单位之间的关系。句法分析的目的主要有两个:一个是确定句子所包含的“谱系”结构;另一个是确定句子的组成成份之间的关系。通常,输入一个句子,即单词之间的线性次序,输出一个非线性的数据结构,如短语结构树(如句法树)或有向无环图(如依存关系图)等。

因此,现有技术中,总是首先进行句法分析,获得句法树,然后在句法树的基础上,进行语义分析,包括进行句子的语义角色标。这样的做法会带来一系列问题,其一,前项任务在进行时,无法考虑到后面任务的具体需求而不能满足需求,通常句法分析面向后续的多个任务,因此输出结果比较通用,而语义角色标注除需要这些通用信息外,还可能需要一些特定的信息,如句法树或其子树的概率信息等,这些信息句法分析系统通常比较欠缺;其二,后项任务的性能受到前面任务性能的制约,句法分析结果的好坏会直接影响到语义角色标注的性能。现有的研究表明,在英文手工句法树和自动句法树上进行的语义角色标注,其性能(F1值)相差10个百分点,而基于中文手工句法树和自动句法树上进行的语义角色标注,其F1值相差甚至达30个百分点。

发明内容

本发明目的是本发明的目的是提供一种有效的句子的语义角色标注方法,通过建立联合推导模型,减少自动句法分析结果对语义角色标注性能的影响,从而解决基于自动句法分析的语义角色标注方法性能较差的问题。

为达到上述目的,本发明采用的技术方案是:一种自然语言句子的语义角色标注方法,采用联合学习模型,同时实现中文句法分析和语义角色标注,包括如下步骤:

(1)生成语义角色标注模型:

生成训练文件:从标注语料库中,根据下表中的特征抽取特征,生成所需的训练文件;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810243605.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top