[发明专利]基于IBMmodel的语料过滤方法及装置在审
申请号: | 202210095739.X | 申请日: | 2022-01-26 |
公开(公告)号: | CN114429123A | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 朱宪超;吴阳剑 | 申请(专利权)人: | 四川语言桥信息技术有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/284;G06F40/30 |
代理公司: | 北京知果之信知识产权代理有限公司 11541 | 代理人: | 高科 |
地址: | 610000 四川省成都市中国(四川)自由贸易试验区*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 ibmmodel 语料 过滤 方法 装置 | ||
1.一种基于IBM Model的语料过滤方法,其特征在于,包括:
搜集目标语言的海量训练语料,包含原文和其对应的标准译文;
对原文和其对应的标准译文进行分词,得到第一集合;
将所述第一集合输入IBM Model模型中训练,得出词对齐概率分布和词位置对齐概率分布;
将需要过滤的目标语料进行分词处理,得到第二集合;
根据所述词对齐概率分布和词位置对齐概率分布,计算所述第二集合中语言对之间的对齐概率得分;
通过所述对齐概率得分判断是否过滤语料。
2.根据权利要求1所述的基于IBMmodel的语料过滤方法,其特征在于,将所述第一集合输入IBM Model模型中训练,得出词对齐概率分布和词位置对齐概率分布,包括:
步骤1:对第一集合中所有语言对的词对齐概率分布和词位置对齐概率分布进行初始化处理,得到词对齐初始值和词位置对齐初始值;
步骤2:根据所有语言对的词对齐初始值计算词对齐概率分布的总和,根据所有语言对的词位置对齐初始值计算词位置对齐概率分布的总和;
步骤3:基于词对齐概率分布的总和,以及词位置对齐分布的总和,重新计算词对齐概率分布和词位置对齐概率分布;
步骤4:重复步骤2、3,直至所述词对齐概率分布和词位置对齐概率分布不再变化为止。
3.根据权利要求1所述的基于IBMmodel的语料过滤方法,其特征在于,所述根据所述词对齐概率分布和词位置对齐概率分布,计算所述第二集合中语言对之间的对齐概率得分,包括:
通过所述词对齐概率分布和词位置对齐概率分布,计算第一对齐函数;
a=argmaxaP(a|E,F)
其中,a代表对齐函数,E和F分别代表原文和译文分词后的词向量E=[e1,e2,e3,……,em]T,F=[f1,f2,f3,……,fn]T,argmax代表寻找具有最大评分的参量,argmaxaP(aE,F)代表寻找对齐函数使得P(aE,F)值最大,P(a|E,F)代表原文译文的词对齐概率分布和词位置对齐概率分布的乘积。
4.根据权利要求3所述的基于IBMmodel的语料过滤方法,其特征在于,所述根据所述词对齐概率分布和词位置对齐概率分布,计算所述第二集合中语言对之间的对齐概率得分,包括:
将第一集合中的原文和译文进行位置倒置;
将倒置后的第一集合输入IBM Model模型中,得出新的词对齐概率分布和词位置对齐概率分布;
基于新的词对齐概率分布和词位置对齐概率分布,计算第二对齐函数。
5.根据权利要求4所述的基于IBMmodel的语料过滤方法,其特征在于,所述根据所述词对齐概率分布和词位置对齐概率分布,计算所述第二集合中语言对之间的对齐概率得分,包括:
基于第一对齐函数和第二对齐函数,计算第二集合中语言对之间的对齐概率得分;
其中,score代表对齐概率得分,n代表译文词数量,m代表原文词数量,P(ea(i)|fi)代表第二集合中译文第i个词与原文中相对应的词ea(i)的词对齐概率,P(fra(j)|ej)代表位置倒置后的第二集合中译文第j个词与原文中相对应的词fra(j)的词对齐概率,P(a(i)|i,m,n)代表第二集合中译文第i个位置与原文第a(i)个位置对齐的位置对齐概率,P(ra(j)|j,m,n)代表位置倒置后的第二集合中译文第j个位置与原文第ra(j)个位置对齐的位置对齐概率。
6.根据权利要求5所述的基于IBMmodel的语料过滤方法,其特征在于,通过所述对齐概率得分判断是否过滤语料,包括:
如果所述对齐概率得分大于或者等于预设阈值,则判定为不需要过滤的语料;
如果所述对齐概率得分小于预设阈值,则判定为需要过滤的语料。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川语言桥信息技术有限公司,未经四川语言桥信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210095739.X/1.html,转载请声明来源钻瓜专利网。