[发明专利]融入源语言词级信息的汉越低资源跨语言摘要方法在审
申请号: | 202210757165.8 | 申请日: | 2022-06-30 |
公开(公告)号: | CN115034238A | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 高盛祥;李小波;余正涛 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 昆明隆合知识产权代理事务所(普通合伙) 53220 | 代理人: | 何娇 |
地址: | 650500 云南*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融入 语言 信息 汉越低 资源 摘要 方法 | ||
本发明提供了融入源语言词级信息的汉越低资源跨语言摘要方法,属于自然语言处理领域,针对解决跨语言摘要任务,本发明首先使用一个提取器对源语言文档的每个词进行一个打分,为了使每个词的得分更加准确,提取器首先使用卷积神经网络对每个词进行表征,接着利用循环神经网络对表征后的词进行打分。然后,将每个词的得分融入到跨语言摘要的生成过程中。由于单语言摘要、机器翻译任务与跨语言摘要任务有着密切的相关性。因此,本发明将这两个任务与跨语言摘要任务进行联合学习。本发明提出的方法能够基于少量平行语料有效地提升摘要生成的质量,适用于低资源环境下及相似性语言环境下的跨语言摘要生成任务。
技术领域
本发明涉及自然语言处理技术领域,提出并公布了融入源语言词级信息的汉越低资源跨语言摘要方法。
背景技术
跨语言摘要任务是一种将源语言文档自动理解、归纳和生成目标语言摘要的信息压缩技术。现有的跨语言摘要可以将其分为基于流程化(pipeline)的方法和基于端到端神经网络的方法。基于流程化(pipeline)的方法是将源语言文本翻译到目标语言,然后对翻译后的文本进行摘要;或先对源语言文本进行摘要,然后将源语言摘要翻译到目标语言。然而,目前机器翻译性能仍不能达到预期效果,存在结果错误传播的问题,尤其针对越南语等低资源语言,错误传播更为显著。随着深度学习的发展,基于端到端神经网络的跨语言摘要方法逐渐成为主流的研究方法。目前,基于端到端的跨语言摘要方法主要集中在富资源(high-resourced)和低资源(low-resourced)两种场景下。在富资源场景下,基于Transformer并利用大量的跨语言摘要标注语料训练跨语言摘要模型,取得了不错的效果。但这种方法依赖超大规模跨语言摘要标注数据。在低资源场景下,基于机器翻译模型和单语摘要模型,将两者作为教师模型来教授跨语言摘要的学生模型,学生模型模拟教师模型的摘要词分布和注意权重。Nguyen提出了一种基于知识蒸馏的跨语言摘要方法,该方法通过教师-学生模型来构建不同语言之间的相关性,将单语摘要教师模型的知识蒸馏到跨语言摘要学生模型中,在一定程度上有效提高了跨语言摘要性能。Dou提出了一种端到端的跨语言摘要方法,其核心思想是利用强化学习将生成的目标语言摘要和源语言摘要的语义相似度作为奖励,来指导跨语言摘要的生成。以上方法在一定程度上解决了由于标注的跨语言摘要数据稀缺,较难实现跨语言语义对齐的问题。然而,由于汉语和越南语之间的语言差异较大,上述的模型在汉越跨语言摘要任务上生成的摘要效果不佳。在汉越低资源语言的情况下,模型无法很好的识别原文中重要信息,通常会造成生成的摘要和原文之间的内容偏差问题。因此,本发明提出了融入源语言词级信息的汉越低资源跨语言摘要的方法,通过融入源语言文档的关键信息来改善摘要和原文之间的内容偏差问题。
发明内容
本发明提出了融入源语言词级信息的汉越低资源跨语言摘要方法。通过融入源语言词级信息有效的解决了模型无法很好的识别原文中重要信息,生成的摘要和原文之间的内容偏差问题。
发明技术方案:融入源语言词级信息的汉越低资源跨语言摘要方法,所述方法的具体步骤如下:
Step1、语料预处理:进行越南语数据采集,采集到的数据通过预处理得到不同规模的平行训练语料、验证语料和测试语料,用于模型训练、参数调优和效果测试;
Step2、源语言词级信息提取:提取器对源语言文档的每个词进行一个打分,提取器首先使用卷积神经网络对每个词进行表征,接着利用循环神经网络对表征后的词进行打分,提取出重要的、关键的词级信息;
Step3、融入源语言词级信息的汉越跨语言摘要模型构建:将机器翻译和单语摘要任务与跨语言摘要任务联合训练,并将提取器提取出源语言词级信息融入到跨语言摘要的生成过程中,使用Step1的语料作为模型输入,产生最终的摘要。
作为本发明的进一步方案,所述Step1的具体步骤为:
Step1.1、把越南新闻网站作为数据来源进行越南语数据采集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210757165.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于水泥公路铺设的路面整平设备
- 下一篇:一种处理方法、装置及电子设备
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置