[发明专利]优化语料库的方法和装置有效
申请号: | 201410124005.5 | 申请日: | 2014-03-28 |
公开(公告)号: | CN104951469B | 公开(公告)日: | 2018-04-06 |
发明(设计)人: | 狄慧;张大鲲;郝杰 | 申请(专利权)人: | 株式会社东芝 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/28 |
代理公司: | 北京市中咨律师事务所11247 | 代理人: | 刘瑞东,杨晓光 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 优化 语料库 方法 装置 | ||
1.一种优化语料库的装置,包括:
过滤单元,其基于优化参数对上述语料库中的句子对进行过滤,得到待优化的句子对;
替换单元,其对上述待优化的句子对的至少一部分进行替换;以及
困惑度计算单元,其计算替换后的句子对的困惑度,在上述替换后的句子对的困惑度小于上述待优化的句子对的困惑度的情况下,将上述替换后的句子对作为上述待优化的句子对的优化结果。
2.根据权利要求1所述的优化语料库的装置,其中,
上述优化参数包括相似度、困惑度、拼写错误和非常用符号中的至少一种。
3.根据权利要求2所述的优化语料库的装置,其中,
在上述优化参数包括上述相似度的情况下,上述过滤单元包括:
翻译单元,其利用翻译系统翻译上述语料库中的句子对的源语言句子;以及
相似度计算单元,其计算上述句子对的上述源语言句子的翻译结果与上述句子对的目标语言句子之间的相似度,将相似度小于预定阈值的句子对作为上述待优化的句子对;
上述替换单元将上述待优化的句子对的目标语言句子替换为上述待优化的句子对的源语言句子的翻译结果。
4.根据权利要求2或3所述的优化语料库的装置,其中,
在上述优化参数包括上述相似度的情况下,上述过滤单元包括:
翻译单元,其利用翻译系统翻译上述语料库中的句子对的目标语言句子;以及
相似度计算单元,其计算上述句子对的上述目标语言句子的翻译结果与上述句子对的源语言句子之间的相似度,将相似度小于预定阈值的句子对作为上述待优化的句子对;
上述替换单元将上述待优化的句子对的源语言句子替换为上述待优化的句子对的目标语言句子的翻译结果。
5.根据权利要求2所述的优化语料库的装置,其中,
在上述优化参数包括上述困惑度的情况下,上述过滤单元包括:
困惑度计算单元,其计算上述语料库中的句子对的困惑度,将困惑度大于预定阈值的句子对作为上述待优化的句子对;以及
n元组提取单元,其提取上述待优化的句子对中的概率低于预定阈值的n元组,n是大于等于1的整数;
上述替换单元包括翻译单元,在存在上述n元组的同义词的情况下,上述替换单元用同义词替换上述n元组,在不存在上述n元组的同义词的情况下,上述翻译单元利用翻译系统对与上述n元组对齐的n元组进行翻译,并且上述替换单元用翻译结果替换上述n元组。
6.根据权利要求2所述的优化语料库的装置,其中,
在上述优化参数包括上述拼写错误且上述语料库中的句子对包括英语句子的情况下,上述过滤单元包括:
拼写错误查找单元,其利用第三方公开库查找上述英语句子中的拼写错误,将存在拼写错误的句子对作为上述待优化的句子对;
上述替换单元利用上述第三方公开库提供的拼写建议替换上述拼写错误。
7.根据权利要求2所述的优化语料库的装置,其中,
在上述优化参数包括上述非常用符号的情况下,上述过滤单元包括:
非常用符号查找单元,其利用预先编写的脚本查找上述句子对中的非常用符号,将存在非常用符号的句子对作为上述待优化的句子对;
上述替换单元利用常用符号替换上述非常用符号或者将上述非常用符号删除。
8.根据权利要求7所述的优化语料库的装置,其中,
上述非常用符号包括逗号、顿号、句号、感叹号、冒号和引号之外的标点符号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝,未经株式会社东芝许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410124005.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:信息处理设备、信息处理方法以及电子装置
- 下一篇:照片集的显示方法和装置