[发明专利]一种用于医学文档翻译的神经网络机器翻译方法有效

专利信息
申请号: 202111004538.6 申请日: 2021-08-30
公开(公告)号: CN113688640B 公开(公告)日: 2023-01-20
发明(设计)人: 林余楚;刘思佑 申请(专利权)人: 深译信息科技(珠海)有限公司
主分类号: G06F40/58 分类号: G06F40/58;G06F40/211;G06F40/30;G06N3/04;G06N3/08
代理公司: 哈尔滨市松花江专利商标事务所 23109 代理人: 张换男
地址: 519000 广东省珠海市香洲区旅游路168号(*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 用于 医学 文档 翻译 神经网络 机器翻译 方法
【说明书】:

一种用于医学文档翻译的神经网络机器翻译方法,它属于机器翻译技术领域。本发明解决了采用现有方法对医学文档中的医学实体进行翻译的准确率低的问题。本发明方法的模型可以对医学命名实体有效的建模和学习,可以极大地帮助NMT系统缓解由于实体翻译不一致带来的一系列翻译问题,而且在逐句翻译时充分地考虑了文档中的上文信息,从而使得译文更具完整性、符合目标语言的语法结构、遵循原文语义,从而提高了医学实体翻译的准确率,带来译文质量的整体提升。本发明可以应用于对医学文档的翻译。

技术领域

本发明属于机器翻译技术领域,具体涉及一种用于医学文档翻译的神经网络机器翻译方法。

背景技术

基于深度学习(DL)的神经网络(NN)目前已经成为人工智能领域的一种核心模型,广泛应用于语音识别,计算机视觉,自然语言处理等领域,并且神经网络模型在多种任务中表现出色,特别是机器翻译(MT)任务。在机器翻译领域,基于神经网络的机器翻译(NMT)的性能已超过了传统的基于统计的机器翻译模型(SMT),成为目前最先进、最主流的机器翻译技术。标准的NMT模型在给定源端句子x=x1,…,xI下,直接优化其目标句y=y1,…,yJ的条件概率:

其中,θ是模型的参数,y<j是部分翻译上下文。概率P(y|x)定义了基于神经网络的编码器-解码器框架。模型参数的训练过程就是最大化训练样本的似然估计(likelihood):

典型地,该框架可以采用不同的网络结构如循环神经网络(RNN)、卷积神经网络(CNN)和自关注神经网络(SAN)网络来实现。基于RNN的编码器-解码器框架(RNNsearch)结构如图1所示,编码器读入源端句子“喜欢这块蛋糕吗?”,“eos”是句子终结符,并通过RNN输出一个语义向量序列。解码器根据此向量表示,利用关注机制和RNN逐词地生成译文。

具体地,每个目标词的动态生成过程如图2所示:

1、生成源端向量表示序列:首先将离散的源端词表示转换成连续的空间表示(word embedding),再将其输入到双向RNN中并得到向量序列,其中每个向量,即图1中下方虚线框内的每个圆点直条对应一个源端词。

2、生成当前时刻的源端上下文:注意力模型(attention model)读入由第1步产生的向量序列和解码器中前一时刻状态st-1为每个源端词输出一个对齐概率,即图1中的“0.0”或“1.0”,对齐概率的值越高,则表示这个源端词和待生成的目标词越相关,将概率和语义向量加权生成当前时刻的源端上下文表示ct

3、生成当前时刻目标端词:解码器读入第2步产生的ct(表示当前时刻待翻译的源端内容总结),前一时刻解码器状态st-1和前一个生成词yt-1,输出当前时刻的解码器状态st。再根据当前时刻的解码器状态st,源端向量表示ct和前一个生成词yt-1,使用一个神经网络生成输出层(标准的Softmax操作),并和所有目标端词进行比较,选择相似度,即概率最高的一个词作为t时刻译文yt

重复第2步~第3步,直到译文的全部目标词生成为止。

医学翻译指将一种语言的医学词汇或句子翻译成另一种语言。医学领域的翻译活动包括各种科学文章的翻译、诊断和实验室设备的文件、制药行业的信息、医疗记录、测试结果以及医学和健康领域的许多其他高度专业化的主题。

人工翻译需要译员不仅具备医学专业知识、理解医学术语,同时也要做好保密性。这对译员的要求很高,同时也增加了大量的人力成本。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深译信息科技(珠海)有限公司,未经深译信息科技(珠海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111004538.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top