[发明专利]基于音节嵌入的藏汉人名音译方法有效
申请号: | 201810059615.X | 申请日: | 2018-01-22 |
公开(公告)号: | CN108197122B | 公开(公告)日: | 2018-11-23 |
发明(设计)人: | 夏建华;张进兵;韩立新 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 211100 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音节 嵌入 嵌入的 汉语 平行语料库 相似度量 序列生成 音译系统 成分袋 候选项 语料 平行 语音 多样性 | ||
本发明公开一种基于音节嵌入的藏汉人名音译方法,利用藏语音节和汉语音节来训练音节成分袋BOC模型,分别得到藏语音节嵌入和汉语音节嵌入表示;根据音节的嵌入表示来实现从藏语人名到汉语人名的音译序列生成。本发明摒弃了传统音译过程中借助语音作为平行语料之间的相似度量,利用BOC模型得到的音节嵌入能够克服平行语料库规模小而导致某些字词缺失对音译系统的影响。本发明克服了传统方法对于缺失字词的音译的局限性,提高了音译结果中字词的多样性和扩展了可候选项,得到更好的音译结果。
技术领域
本发明涉及文字处理技术领域,尤其涉及一种基于音节嵌入的藏汉人名音译方法。
背景技术
把一种语言的文字序列转换成另一种语言对应的意义相同文字序列,是翻译的基本过程。这也是从事藏文古文献资料汉化工作者的基本任务,在这个活动过程中,翻译专家在翻译一些人名、地名等专有名词时,则不采用意译,而采用音译,也就是根据藏文人名、地名的字符发音转换成汉文中对应的发音相同或相似的字构成的人名、地名。然而,在人工翻译过程中,受人为翻译的因素影响,出现了许多藏汉音译的不规范形式,例如:1)汉语方言的差异导致汉语音译的差异:如不同的翻译人可以将地名音译为“僧达阿冬”、“申达阿洞”、“孙达阿东”等;2)藏语方言(藏语有三大方言:卫藏、康巴、安多)的差异性导致汉语音译的不同:比如地名曾被音译为“强巴”、“祥巴”、“向巴”等几种译法;3)由于藏文书面语与口语的语音偏差造成音译汉语语句的不同等。
计算机技术的发展,以及其与语言信息处理技术的结合所形成的机器音译,克服了前面讨论的人工音译的缺陷,比如,采用藏语官方版的拉萨藏语发音制作藏汉平行语料,那么在使用音译机器音译时,则不会出现康巴、安多两种方言对音译结果的干扰。目前存在的机器音译方法有许多,主要如下:
基于规则的方法,包括基于字形和基于语音的音译,前者通过字形匹配,后者采用平行语音语料匹配,解决了约定俗成的音译,如只可译为文成公主;
基于统计的方法和规则与统计相结合的方法,当某些约定俗成的音译出现两种和两种以上的译法,则可以依据统计权重来选择。
但是,以上这些方法都受限于人工标注语料的数据量有限和涉及领域少,比如,我们需要将地名:和人名:分别音译成汉文,但是平行语料中没有此词条,则可能导致基于规则和统计的方法也不能找到发音相似的音译:“僧达阿冬”、“森达顿木”、“申达阿洞”、“孙达阿东”和“索罗西”、“索洛溪”等,也就是以上这些方法在遇到了未在平行语料中出现的词条,就不能生成相应的音译汉文序列,这也是这些方法目前存在的不足和局限性。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于音节嵌入的藏汉人名音译方法,克服了传统方法在音译结果中同音字可候选的局限性,提高了音译结果中字词的多样性和可选择性。
为达到上述目的,本发明所采用的技术方案是:基于音节嵌入的藏汉人名音译方法,该方法包括如下步骤:
对藏文、汉文分别进行音节化,得到藏文音节和汉文音节,利用藏文音节和汉文音节训练音节成分袋BOC模型,分别得到藏文音节嵌入表示和汉文音节嵌入表示;根据音节嵌入表示、利用最大熵音译模型实现从藏文人名到汉文人名的音译。
进一步的,音节化的具体方法如下:
将平行语料和非平行语料中的藏文和汉文分别进行音节化,包括音节划分和音节拆分;
藏文的音节化处理是指先将藏文语料按按音节划分,再进行音节的成分化处理;
汉文的音节化处理是先将汉字进行拼音化,再按音节划分和成分化处理为:声母、第一韵母、第二韵母和声调;
针对每个音节构建一个两层多叉树:根节点为音节,叶子节点为相同发音的汉字。
进一步的,汉字拼音化过程中,相同拼音但不同声调应当进行声调区分处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810059615.X/2.html,转载请声明来源钻瓜专利网。