[发明专利]一种基于翻译的跨语言短语结构分析方法及装置有效

专利信息
申请号: 202210526372.2 申请日: 2022-05-16
公开(公告)号: CN114626363B 公开(公告)日: 2022-09-13
发明(设计)人: 张梅山;李建玲;孙越恒 申请(专利权)人: 天津大学
主分类号: G06F40/211 分类号: G06F40/211;G06F40/289;G06F40/30;G06F40/216;G06F40/14;G06F40/189
代理公司: 北京市广友专利事务所有限责任公司 11237 代理人: 张仲波
地址: 300072*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 翻译 语言 短语 结构 分析 方法 装置
【说明书】:

本发明公开了一种基于翻译的跨语言短语结构分析方法及装置,涉及自然语言处理技术领域。包括:获取待分析的句子;将待分析的句子输入到构建好的跨语言短语结构分析模型;其中,跨语言短语结构分析模型包括短语结构树库构建模块以及短语结构解析器模块;根据待分析的句子、短语结构树库构建模块以及短语结构解析器模块,得到待分析的句子的短语结构分析结果。本发明解决了当前很多语言缺少短语结构树库语料或者完全没有短语结构标注数据的问题。提出的基于翻译的跨语言短语结构分析方法可以扩展生成目标语言的短语结构树库,然后用树库训练得到的短语结构解析模型其质量更高。

技术领域

本发明涉及自然语言处理技术领域,特别是指一种基于翻译的跨语言短语结构分析方法及装置。

背景技术

短语结构分析又被称为句法结构分析或成分结构分析,短语结构分析的目标是给定输入句子,构建整个句子的句法结构并输出其完整的短语结构。近几年来,随着深度学习和预训练模型在自然语言处理领域的应用和研究,有监督的短语结构句法分析任务已经达到很高的准确率,但是,这类针对单语言数据集的句法结构分析模型,其性能难以泛化到其他语言的句法结构任务中。当前已有科研工作者提出了多语言的句法结构分析模型,但是其受限于标注语料语言,即只有统一风格标注的树库才能进行。而短语结构树库语料的标注构建需要语言专家大量的时间精力,目前已经存在的短语结构树库主要是语言使用率较高的英语、中文、德语以及法语等语言,其余大部分语言短语树库语料标注数据数量很少或者没有标注数据。基于此,利用标注资源丰富的源语言帮助标注稀缺的目标语言实现跨语言句法分析成为必然趋势。

跨语言句法分析模型方法主要分为三类:模型迁移、标注映射以及树库翻译方法。迁移模型直接用源语言训练的模型来解析目标语言,可以将源语言和目标语言的词向量映射到统一空间中,使得源语言和目标语言更容易交互,但是模型很难只获取到与语言无关的句法结构特征,这种特征在不同语言的树库预料上是统一的。这种直接模型迁移的方法很难获得性能表现好的跨语言句法结构分析模型。而标注映射是用平行语料和对齐来映射源语言句子的标注信息。这类模型方法是直接将源语言的解析器直接应用到目标语言中,然后利用平行语料来将树库对齐,这种目标语言树库是自动生成的,所以包含很大噪声,树库数据困难存在的致命问题就导致最终的模型性能也不高。最后一类跨语言方法主要是通过翻译来生成平行语料,然后再通过标注信息映射来得到目标语言的语料树库,本专利的跨语言句法结构分析也属于这一类方法,相比于前面两种跨语言方法,这种基于翻译的跨语言句法分析模型可以直接获取到比较可信的目标语言句法树库,且这种翻译方法可以迁移应用到几乎所有语言的句法分析任务中,但是,短语树结构的映射方法比较复杂,存在词难以对齐的问题,但是,当前对于这类跨语言句法分析的研究较少。多语言短语结构分析模型也可以实现一定程度的跨语言能力,需要多种语言统一风格的短语结构标注数据,多语言任务性能的提升很大程度上得益于多语言预训练模型包含的知识。

基于模型迁移的跨语言短语结构分析模型,因为深度学习难以解释并且准确获取语言无关且句法结构专有的知识,模型最终获取的信息通常是句法信息和语言信息混杂而成,这就导致了直接基于模型迁移的方法进行跨语言短语结构解析的性能不可靠。

基于标注映射的跨语言短语结构分析模型,因为引入了平行语料可以获取更多源语言和目标语言的共性知识,所以该类方法性能会有所提升,但是因为没有获取目标语言的语料库,而是直接应用源语言句法模型输出的结构,所以模型性能也不够可靠。

基于翻译的跨语言短语结构分析模型,这种方法相对来说引入了更多的外部数据和知识,包括翻译的平行语句,对齐模型,以及标注映射方法,这样使得模型最终可以获得较高质量的翻译树库,但是不同语言的句子之间存在难以对齐问题,不同处理方法获取的目标语言树库使得最终句法模型的性能不同。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210526372.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top