[发明专利]优化语料库的方法和装置有效
申请号: | 201410124005.5 | 申请日: | 2014-03-28 |
公开(公告)号: | CN104951469B | 公开(公告)日: | 2018-04-06 |
发明(设计)人: | 狄慧;张大鲲;郝杰 | 申请(专利权)人: | 株式会社东芝 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/28 |
代理公司: | 北京市中咨律师事务所11247 | 代理人: | 刘瑞东,杨晓光 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 优化 语料库 方法 装置 | ||
技术领域
本发明涉及自然语言处理的技术,具体而言,涉及优化语料库的方法和的装置。
背景技术
统计机器翻译的性能在很大程度上取决于平行语料的数量和质量。一方面,收集到的大规模训练数据需要有效地管理起来用于不同的用途。另一方面,语料越多,则含有的噪音越多,这些噪音会影响翻译模型和语言模型的估计的准确性。因此,过滤训练语料中的噪音是一个非常基本而且重要的任务。对此,在现有技术中存在以下方法。
(1)英汉双语语料库过滤方法,包括以下步骤:A.确定英汉双语句对的句长比例特征值;B.分别统计英汉双语句对中不同词性的数量,分别计算所述词性的词与所述双语的互译词典中对应的词匹配的数量,根据不同词性的数量和所述匹配的数量确定互翻译特征值;C.根据预先利用训练集建立的分类模型,利用所述句长比例特征值和所述互翻译特性特征值进行过滤分类。
(2)改善用于统计机器翻译的语料质量的方法,包括以下步骤:A.利用句长比例和翻译比例对语料进行过滤;B.将句长比例和翻译比例不达标的句对删除。方法(2)中的句长比例与方法(1)中的句长比例特征值一样,方法(2)中的翻译比例与方法(1)基本一样,区别是没有考虑不同词性的数量。
(3)同义句子替换方法:例如,在双语语料库中有这四个句子对(“S”表示源语言句子,“T”表示目标语言句子,表示对应关系),则S1、S2、S3、T1、T2属于一个同义句子组,在进行优化时,首先从每组选出一个出现频率最高的句子对(S1出现了3次,T1出现了2次,因此为出现频率最高的句子对),然后用选出的句子对中的句子替换同组中其他句子对的句子(即,用S1替换S2和S3,用T1替换T2)。
发明内容
本发明的发明人发现上述方法(1)仅对语料库中具有噪音的句子对进行过滤,并没有记载如何对过滤出的噪音进行优化。上述方法(2)在过滤之后通过删除语料库中的具有噪音的句对进行优化,然而,若直接删除这些具有噪音的句对,则会删除有用信息,从而会导致语料库的性能下降。在对上述方法(3)进行研究后发现,尽管上述替换方法能够保留具有噪音的句对,但是用于替换的句子是语料库中本来就存在的句子,因而优化会局限于语料库自身,无法有效地消除噪音。
为了解决现有技术中存在的上述问题,本发明的实施方式提供一种能够在不损失有用信息的基础上有效地消除噪音且有效地降低语料库的困惑度的优化语料库的方法和装置。具体而言,提供以下技术方案。
[1]一种优化语料库的方法,包括以下步骤:基于优化参数对上述语料库中的句子对进行过滤,得到待优化的句子对;对上述待优化的句子对的至少一部分进行替换;以及计算替换后的句子对的困惑度,在上述替换后的句子对的困惑度小于上述待优化的句子对的困惑度的情况下,将上述替换后的句子对作为上述待优化的句子对的优化结果。
上述方案[1]的优化语料库的方法,通过对过滤出的句子对的至少一部分进行替换,而不是删除,从而不会损失有用信息,并且以替换后的句子对的困惑度降低为条件进行优化,因此能够确保降低优化后的语料库的困惑度,有效地消除噪音,提高语料质量。
[2]根据上述[1]所述的优化语料库的方法,其中,
上述优化参数包括相似度、困惑度、拼写错误和非常用符号中的至少一种。
[3]根据上述[2]所述的优化语料库的方法,其中,
在上述优化参数包括上述相似度的情况下,上述过滤和替换步骤包括以下步骤:利用翻译系统翻译上述语料库中的句子对的源语言句子;计算上述句子对的上述源语言句子的翻译结果与上述句子对的目标语言句子之间的相似度,将相似度小于预定阈值的句子对作为上述待优化的句子对;以及将上述待优化的句子对的目标语言句子替换为上述待优化的句子对的源语言句子的翻译结果。
[4]根据上述[2]或[3]所述的优化语料库的方法,其中,
在上述优化参数包括上述相似度的情况下,上述过滤和替换步骤包括以下步骤:利用翻译系统翻译上述语料库中的句子对的目标语言句子;计算上述句子对的上述目标语言句子的翻译结果与上述句子对的源语言句子之间的相似度,将相似度小于预定阈值的句子对作为上述待优化的句子对;以及将上述待优化的句子对的源语言句子替换为上述待优化的句子对的目标语言句子的翻译结果。
上述方案[3]和[4]的优化语料库的方法,通过使用由翻译系统获得的翻译结果替换具有噪音的句子,能够利用外部信息对过滤出的句子进行优化,从而能够更加有效地消除噪音,提高语料质量。
[5]根据上述[2]所述的优化语料库的方法,其中,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝,未经株式会社东芝许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410124005.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息处理设备、信息处理方法以及电子装置
- 下一篇:照片集的显示方法和装置