[发明专利]一种汉语句子功能成分分析方法有效

专利信息
申请号: 201710077125.8 申请日: 2017-02-13
公开(公告)号: CN106844348B 公开(公告)日: 2020-01-17
发明(设计)人: 赵铁军;曹海龙;王亚楠;徐冰;朱聪慧;杨沐昀;郑德权;马春鹏 申请(专利权)人: 哈尔滨工业大学
主分类号: G06F40/205 分类号: G06F40/205;G06F40/16
代理公司: 23109 哈尔滨市松花江专利商标事务所 代理人: 杨立超
地址: 150001 黑龙*** 国省代码: 黑龙;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 汉语 句子 功能 成分 分析 方法
【说明书】:

一种汉语句子功能成分分析方法,本发明涉及汉语句子功能成分分析方法。本发明的目的是为了解决现有技术没有考虑汉语句子的功能成分的问题。过程为:一、对训练语料进行处理,对CTB5.0进行转化,转化成带有功能成分标签的形式,进行修正得到修正后的语料;转化成基于字粒度的形式,作为A;二、将A输入句法功能成分分析器进行训练得到汉语句子功能成分分析模型C;三、对纯汉语文本数据进行处理,得到带有功能成分标签的句子,转化成基于字粒度的形式,作为B,将A与B相结合作为最终的训练数据;四、采用汉语句子功能成分分析模型D对待测试汉语句子进行测试,得到测试结果。本发明用于句子功能成分分析领域。

技术领域

本发明涉及汉语句子功能成分分析方法,涉及机器翻译技术领域。

背景技术

句法分析是自然语言处理的一个关键问题,目前达到的效果不尽如人意,处在一个瓶颈的状态下。在现在的研究中句法分析仍然是一个热点话题,原因在于句法分析处于整个自然语言处理任务中的过渡位置,很多其他自然语言处理任务都可以使用该结果,有很多研究都利用到了这部分分析内容,而且不管是上层结构还是下层结构都是可以应用该结果的,主要的句法分析方法可以分为两类,一类是浅层句法分析,也就是语块分析,不再以词为单元处理,而是以语块为基本单元进行处理,在这类分析中分为直接产生一个新型层序结果的分析方法,也有将不同语块再次进行分析的方法,以语块为单元进行句法分析,而忽略语块内结构的信息,产生出的结果仍然是一棵部分句法分析树;另一类是完全句法分析,在这里的处理单元则是句子中的每个词,产生的是一棵完全句法树,而这种句法分析任务也可以被划分为短语结构的句法树分析和依存结构句法树分析,在短语结构句法分析中,将基本句子单元词通过其在短语中的形式和关系,逐渐分层次建立的一棵完整的具有短语层次结构的句法树,类似的,在有依存句法分析中,根据依存语法的定义,通过模型建立出的是将词语之间依存关系建立出来的一棵具有依存关系的完整句法树。

但是,这些研究中都没有将句子中具有的功能信息考虑到其中,短语结构句法分析考虑的是短语层次的信息,而依存句法分析中考虑的是词语之间的依存关系,这些都没有体现词或词集合在句子中呈现出的作用(比如主谓宾等),清华大学的周强等人第一次提出了相类似的概念,他们把功能成分提取任务转化为一种语块分析任务,与之前短语语块不同的是标签为句子的功能成分,并且在CIPS-2009的任务中发布了相关任务,然而在之后的几年里,相关的研究基本处于停滞阶段,只有在2011年有一篇和该任务相关的文章发表在中文信息学报中。

句子功能成分在许多实际问题中都有很重要的意义,例如在机器翻译的词对齐任务中,利用句子功能成分信息,我们可以加快词对齐速度和准确率,即让相同成分的词进行相对应,这样的方法既简便,又符合语言学上的规则;类似地,在依存句法分析中,我们可以利用句子功能成分信息作为限定条件在柱搜索的过程中将不合法的路径直接删掉,从而提高搜索的速度,同样地,这样的规则也具有简便易行的优点;在语义分析上的研究。更为重要的是在整个自然语言处理任务中,它可以作为句法分析和语义分析的一个过渡任务,从粒度上看,它高于句法分析而低于语义分析,该任务获得较好的效果会对这两个任务都会有提高作用,从之前的介绍可以看出这种研究有很重要的应用前景,值得对这一方向进行关注。

但是现有的相关研究还是处于十分初级的阶段,并没有很多的工作可以借鉴,主要的分析方法还是周强等人的功能语块分析,然而这些方法还有很多缺陷。首先,汉语功能树库的数据量并不是十分多,同时有人工利用规则转换成的成分树库存在一定的准确性问题,而且之后并没有数据的更新;其次,不论是周强等人还是陈亿的研究都仅仅针对汉语句子标注出其功能语块,产生一个单层线性结构的结果而并非是一个层次结构,目的是为了服务于句法分析树的构建;另外,从具体研究任务上来说,目前还没有专门对汉语句子的功能成分有相关研究的开展。因此,我们提出汉语功能成分分析基线模型以及基于移进归约动作转移的分析方法。从上述的工作贡献和工作意义上看,我们的工作是有很好的背景意义的。

发明内容

本发明的目的是为了解决现有技术没有考虑汉语句子的功能成分的问题,而提出一种汉语句子功能成分分析方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710077125.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top