[发明专利]计算句子相似度的方法和装置以及机器翻译的方法和装置有效
申请号: | 201110303522.5 | 申请日: | 2011-10-09 |
公开(公告)号: | CN103034627A | 公开(公告)日: | 2013-04-10 |
发明(设计)人: | 刘占一;吴华;王海峰 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算 句子 相似 方法 装置 以及 机器翻译 | ||
【技术领域】
本发明涉及计算机技术领域,特别涉及一种计算句子相似度的方法和装置以及机器翻译的方法和装置。
【背景技术】
句子相似度计算在问题检索、双语例句检索、机器翻译、文档文摘等领域都有很重要的应用价值,其中采用怎样的句子相似度计算方法能够准确地体现两个句子之间的相似状况是影响上述应用质量的关键。
举一个在机器翻译技术中的应用,在机器翻译技术中通常使用预处理过的双语例句作为主要翻译资源,通过编辑与待翻译句子匹配的相似例句来生成最终译文。具体地,包括以下步骤:
1)在翻译实例库中搜索与待翻译句子匹配的相似例句。
例如:待翻译句子为:This is a pencil。
相似例句为:That is a pen。
2)识别待翻译句子和相似例句之间的差异词
This和That是差异词,pencil和pen是差异词。
3)将待翻译句子中的差异词对应的译文作为候选译文片段。
即“这”和“铅笔”作为候选译文片段。
4)在相似例句的译文中,利用候选译文片段替换相似例句中差异词的译文,得到待翻译句子的译文。
相似例句的译文为:“那是一只钢笔”,用“这”替换“那”,用“铅笔”替换“铅笔”,得到待翻译句子的译文为“这是一只铅笔”。
由以上机器翻译过程可以看出,如何选择相似例句是影响翻译质量高低的关键因素。
现有的句子相似度计算通常采用计算句子之间编辑距离的方式,编辑距离由从一个句子转换到另一个句子所需要的最少操作数目确定,所述操作可以包括:插入、删除或替换等,如果两个句子之间的编辑距离越小,则确定两个句子之间的相似度越高,但这种方式会存在一定缺陷。
例如,如果待翻译句子为:Can I take a picture of the painting?
通过计算编辑距离方式选择的相似例句为:Can I take a picture of the car?
利用该相似例句形成的译文为:我能为这辆油画拍张照片吗?
如果将句子Can we take a photo of the painting作为待翻译句子的相似例句,则形成的译文为:我能为这幅油画拍张照片吗?
可以看出,虽然句子Can we take a photo of the painting与待翻译句子的编辑距离大于句子Can I take a picture of the car与待翻译句子的编辑距离,但其与待翻译句子的相似性要高于句子Can I take a picture of the car,从而形成的译文质量也较高。
上述的问题就是因为在计算句子之间相似度时,没有考虑两句子差异词之间的关系。虽然有人提出在相似度的计算中基于同义词词典来考虑差异词之间的相似程度,但在很多应用下,诸如上述机器翻译应用中,差异词与上下文之间搭配关系相比较语义来说,在相似度计算中具有更加重要的意义,更能够准确地体现出两句子之间的匹配程度,对上述应用的质量影响更大。
【发明内容】
本发明提供了一种计算句子相似度的方法和装置以及机器翻译的方法和装置,以便于更加准确地体现两句子之间的匹配程度,从而提高其用于诸如机器翻译等应用的质量。
具体技术方案如下:
一种计算句子相似度的方法,该方法包括:
A、对第一句子和第二句子进行比较,确定差异词对;
B、利用差异词对中差异词与其所在第一句子或第二句子中其他词语的搭配概率,为各差异词打分,其中两词语之间的搭配概率通过查询搭配概率模型得到,所述搭配概率模型中两词语之间的搭配概率由所述两词语在预设的语料库中的共现次数统计得到;
C、利用差异词对中各差异词的打分结果,确定差异词对的打分;
D、利用各差异词对的打分结果,确定所述第一句子和所述第二句子的相似度。
具体地,在所述步骤B中,按照如下公式为各差异词打分:
其中r(wi,E)为差异词wi的打分结果,E为差异词wi所在的第一句子或第二句子,wj为E中除wi之外的其他词语,r(wi,wj)为wi和wj的搭配概率,m为E包含的词语数目。
在所述步骤C中,按照如下公式为差异词对打分:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110303522.5/2.html,转载请声明来源钻瓜专利网。