[发明专利]一种基于多维度数据分析和语义的中英语料库校对方法在审
| 申请号: | 201710031471.2 | 申请日: | 2017-01-17 |
| 公开(公告)号: | CN106874263A | 公开(公告)日: | 2017-06-20 |
| 发明(设计)人: | 程国艮;宋金平 | 申请(专利权)人: | 中译语通科技(北京)有限公司 |
| 主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/27 |
| 代理公司: | 北京万贝专利代理事务所(特殊普通合伙)11520 | 代理人: | 马红 |
| 地址: | 100040 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 多维 度数 分析 语义 英语 校对 方法 | ||
技术领域
本发明属于统计机器翻译技术领域,尤其涉及一种基于多维度数据分析和语义的中英语料库校对方法。
背景技术
统计机器翻译主要包括翻译模型和语言模型两大部分,其中翻译模型由双语平行语料库训练而来,语言模型由目标语言单语语料训练而来,统计机器翻译引擎的质量在很大程度上取决于用来训练的双语平行语料库的质量。国外有研究表明,经过校对的高质量的1000万句对的双语语料和未经校对的8000万句对的语料所训练出来的引擎翻译质量相当。由于双语平行语料一般数量庞大,动辄数千万甚至上亿句对,而且来源复杂。
综上所述,现有技术的存在的问题是:双语平行语料数量来源复杂造成校对不正确和不整齐。
发明内容
本发明的目的在于提供一种基于多维度数据分析和语义的中英语料库校对方法,旨在解决双语平行语料数量来源复杂造成校对不正确和不整齐的问题。
本发明是这样实现的,一种基于多维度数据分析和语义的中英语料库校对方法,所述基于多维度数据分析和语义的中英语料库校对方法为:利用规则机器翻译引擎,将语料库中的英语句子翻译成中文;然后此中文和语料库中的中文句子进行匹配;根据匹配率,辅以距离、长度、编号多维度数据分析特征,找出不匹配的句对,留下准确的句对,从而校对出正确的语料库。
进一步,所述基于多维度数据分析和语义的中英语料库校对方法具体包括以下步骤:
检查英文句子中是否存在汉字,通过汉字内码表,自动取出英文句子中存在汉字的句子;
检查英中句子长度是否匹配,计算英文句子的长度和汉语句子的长度的比值,其中英文句子长度就是句子中英文字符的数量,汉语句子长度就是句子中汉字的数量,就是然后设定一个阈值,超出该阈值范围的不匹配,阈值比值范围为:0.4≤阈值比值≤6;
检查句子是否超长,计算句子中英文句子的长度和汉语句子的长度,用于统计机器翻译训练的句子中,汉语句子长度大于500或英语句子长度大于800为超长句子,去掉;
检查汉语句子中的英文是否太多,计算汉语句子中英文字符的数量,用于统计机器翻译训练的句子,训练出的翻译模型为中英短语对,一个汉语句子中含有非汉字和标点的字符数超过40,将非汉字和标点去掉;
检查汉语句子中汉字是否太少,计算汉语句子中汉字的数量,用于统计机器翻译训练的句子,训练出的翻译模型是中英短语对,汉语句子中汉字数量少于2,该句子不合格;
检查圆括号是否匹配,首先检查英文句子的圆括号是否配对,然后检查汉语句子的圆括号是否配对,再检查英文句子和汉语句子双方的圆括号是否配对;计算英文句子中左圆括号的数量,再计算英文句子中右圆括号的数量,看两者数量是否相等;计算汉语句子中左圆括号的数量,再计算汉语句子中右圆括号的数量,看两者数量是否相等;计算英语句子中左圆括号的数量,再计算汉语句子中左圆括号的数量,看两者数量是否相等;计算英语句子中右圆括号的数量,再计算汉语句子中右圆括号的数量,看两者数量是否相等;
检查方括号是否匹配,首先检查英文句子的方括号是否配对,然后检查汉语句子的方括号是否配对,再检查英文句子和汉语句子双方的方括号是否配对;
检查句首项目符号与编号是否匹配,对原文和译文部分句首项目符号与编号不匹配的进行校正;如果原文句首有项目符号与编号,而译文句首没有项目符号与编号,则将原文的句首项目符号与编号删除掉;如果译文句首有项目符号与编号,而原文句首没有项目符号与编号,则将译文的句首项目符号与编号删除掉;
检查数字是否正确,检查语料库中数字是否错误,以及检查原译文数字不相匹配的错误;采用查找关键词“C:D:D||C:D:D||C:^D1&&!E:^D1”的方法,找出问题句对;其中C:代表在汉语句子中查找,D代表任意数字,为多个数字;D:D代表数字,:为数字的模式,^代表句首,D1代表一个数字;||为逻辑或运算,&&为逻辑与运算,!为逻辑非运算;C:^D1&&!E:^D1表示汉语句子以数字开始,同时其对应英文句子不是以数字开始;
检查各种乱码,根据汉字的内码表和提取一个全部由乱码组成的关键字文件检查各种乱码;
语义校对,对语料库进行语义校对是本发明的重点,方法是采用英汉规则机器翻译引擎对句对中的英文句子进行翻译,得到中文译文,然后将该译文和该句对中的中文进行相似度计算,相似度低于某个阈值的认为是不合格句对。
进一步,检查各种乱码中,采用两种方法检查乱码,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技(北京)有限公司,未经中译语通科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710031471.2/2.html,转载请声明来源钻瓜专利网。





