[发明专利]一种译文检查方法及其系统有效
申请号: | 201310456548.2 | 申请日: | 2013-09-29 |
公开(公告)号: | CN104516870B | 公开(公告)日: | 2018-08-07 |
发明(设计)人: | 叶茂;王元龙;金立峰;汤帜;徐剑波 | 申请(专利权)人: | 北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 寇海侠 |
地址: | 100871 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种译文检查方法及其系统,包括初始化处理和检查判定处理。所述初始化处理,基于一批语料来训练二元语法模型,作为检查评分模型,为所述检查判定处理时给译文打分提供依据。所述检查判定处理,通过所述检查评分模型给译文打分,将译文得分与预设判定阈值比较,将得分小于所述预设判定阈值的译文判定为“错误”,否则判定为“正确”。上述技术方案有效避免了现有技术中对译文检测方法很大程度上依赖于双语专家或高质量的人工翻译译文作为参照,同时不能判断正确与否,只能判断评测译文的好差程度的问题。 | ||
搜索关键词: | 一种 译文 检查 方法 及其 系统 | ||
【主权项】:
1.一种译文检查方法,包括初始化处理和检查评定处理,其特征在于:所述初始化处理,基于一批语料,通过统计所述语料二元切分条目的概率信息,来获得二元语法模型,作为检查评分模型,为所述检查判定处理时给译文打分提供依据;具体包括:获取文本集D,d∈D,其中d表示所述文本集D的一个文本;将所述文本集D中的每一个文本d分句后获得的句子进行二元切分,并将每个二元切分条目(wiwi+1)存入列表L,其中,i=1,2,…,n‑1,n为一个句子所包含的字符个数,wi表示句子中的一个字符,wi+1表示字符wi后的一个字符;对所述文本集D中的每一个文本d进行分句处理,得到m个句子s1,s2,…,sm,其中m为非负整数;对所述每一个句子si做二元切分,通过si得到k个二元切分条目(w1w2)(w2w3)…(wkwk+1),每一个句子si包含的字符的个数为k+1个;将每个二元切分条目存入列表L;将所述列表L中的每个二元切分条目存入集合Q,根据所述集合Q计算以wi开始时wj出现的概率fp(wi,wj),其中wi、wj分别表示二元切分条目中的第一字符和第二字符;将计算得到的所有fp(wi,wj)保存为所述检查评分模型;其中,所述计算以wi开始时wj出现的概率fp(wi,wj)的方法为:从列表L中得到所有以wi开始的二元切分条目,将二元切分条目中的第二个字符wj加入字符串S;将所述字符串S中的每个字符存入集合T;统计所述字符串S的长度n1,对于集合T中的每一个字符wj,统计所述字符wj在字符串S中出现的次数m1;则以wi开始时wj出现的概率fp(wi,wj)为fp(wi,wj)=m1/n1其中,m1,n1的初始值为零;所述检查评定处理,通过所述检查评分模型给译文打分,获取短语的译文;对所述译文做二元切分,获得所述译文的二元切分条目;根据所述检查评分模型对所述译文进行打分评估;将译文得分与预设判定阈值比较,将得分小于所述预设判定阈值的译文判定为“错误”,否则判定为“正确”。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学,未经北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310456548.2/,转载请声明来源钻瓜专利网。