[发明专利]平行口语语料的对齐方法和装置无效
申请号: | 200710199195.7 | 申请日: | 2007-12-20 |
公开(公告)号: | CN101464856A | 公开(公告)日: | 2009-06-24 |
发明(设计)人: | 任登君;吴华;王海峰 | 申请(专利权)人: | 株式会社东芝 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京市中咨律师事务所 | 代理人: | 李 峥;杨晓光 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 平行 口语 语料 对齐 方法 装置 | ||
[0001]技术领域
[0002]本发明涉及信息处理技术,具体地,涉及平行口语语料的短语对齐和词语对齐。
[0003]背景技术
[0004]机器翻译技术主要分为:基于规则的翻译、基于语料库的翻译。[0005]在基于语料库的机器翻译中,主要的翻译资源来源于语料库。也就是说,在基于语料库的机器翻译中,以语料库中的平行双语语料作为机器翻译的训练基础。并且,基于语料库的机器翻译的过程是,首先对语料库中的平行双语语料进行词语对齐、句法分析等处理,以形成对齐的、经过句法分析的句对;然后,翻译引擎便将这样的句对视为一种框架结构,当用户输入待译句子后,翻译引擎对输入句子进行与这些框架结构的匹配,如果匹配成功,则根据匹配的框架结构对待译句子进行翻译,从而得到输入句子的目标语言译文。
[0006]可以看出,语料库中平行双语语料的对齐,是基于语料库的机器翻译的前提和关键,因为译文的质量很大程度上将依赖于语料的对齐质量。
[0007]语料的对齐关系包括段落级对齐、句子级对齐、短语结构级的对齐、词汇级对齐等。
[0008]词语对齐是指在源、目标语言语料中找到词汇级的对应关系。也就是说,从目标语言语料中寻找与源语言语料中的词汇有语义相似度的词汇,从而建立源语言句子和目标语言句子的翻译单位之间的对应关系,即确定词与词的对应关系。
[0009]目前存在很多用于实现词语对齐的方法,但是,大多数的对齐方法都是针对结构完整的书面语的,而并没有在语音机器翻译中针对口语特点进行对齐的方法。实际上,口语和结构完整的书面语有很多不同之处。
[00010]对于口语来说,句子的结构非常灵活,语流不如书面语流畅,往往会出现重复、犹豫、省略等不流利现象。这在结构完整的书面语中则是不存在的。
[00011]由于口语与结构完整的书面语的不同,在语音机器翻译中,即使用能够很好地对齐结构完整的书面语的对齐方法来对齐口语,也并不能取得令人满意的效果。
[00012]因此,需要设计出一种用于有效对齐口语的方法,以适应口语的特点。
[00013]发明内容
[00014]本发明正是鉴于上述现有技术中的问题而提出的,其目的在于提供一种平行口语语料的对齐方法和装置以及分别采用了这样的平行口语语料的对齐方法和装置的语音机器翻译方法和系统,以便通过利用从语料库中的平行口语语料获得的基于统计方法和词典的高准确率词对齐集合对平行口语语料进行短语对齐、进而词对齐,来获得短语对齐集合和词对齐集合,并将其用于语音机器翻译中,从而利用短语的完整性来减少口语词对齐的歧义。
[00015]根据本发明的一个方面,提供一种平行口语语料的对齐方法,包括:从上述平行口语语料获得基于统计方法和词典的词对齐集合;利用上述基于统计方法和词典的词对齐集合,对上述平行口语语料进行短语对齐,以获得短语对齐集合;以及在上述平行口语语料的对齐的短语内进行词对齐,以获得基于短语对齐的词对齐集合。
[00016]根据本发明的另一个方面,提供一种语音机器翻译方法,其基于包含平行口语语料的口语语料库进行语音机器翻译,该方法包括:利用上述的平行口语语料的对齐方法,从上述口语语料库中的平行口语语料获得短语对齐集合和词对齐集合;以及利用上述短语对齐集合和词对齐集合,对输入的待译口语句子进行源-目标语言的语音机器翻译。
[00017]根据本发明的另一个方面,提供一种平行口语语料的对齐装置,包括:基于统计方法和词典的词对齐集合获取单元,用于从上述平行口语语料获得基于统计方法和词典的词对齐集合;短语对齐单元,用于利用上述基于统计方法和词典的词对齐集合,对上述平行口语语料进行短语对齐,以获得短语对齐集合;以及短语内词对齐单元,用于在上述平行口语语料的对齐的短语内进行词对齐,以获得基于短语对齐的词对齐集合。
[00018]根据本发明的另一个方面,提供一种语音机器翻译系统,其基于包含平行口语语料的口语语料库进行语音翻译,该系统包括:上述的平行口语语料的对齐装置,用于从上述口语语料库的平行口语语料获得短语对齐集合和词对齐集合;以及语音翻译模块,用于利用上述短语对齐集合和词对齐集合,对输入的待译口语句子进行源-目标语言的语音翻译。
[00019]附图说明
[00020]相信通过以下结合附图对本发明具体实施方式的说明,能够使人们更好地了解本发明上述的特点、优点和目的。
[00021]图1是根据本发明实施例的平行口语语料的对齐方法的流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝,未经株式会社东芝许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710199195.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电子词典机数据更新方法
- 下一篇:一种混合数字接口