[发明专利]一种自动更正部分文字的方法-由英文词性判断有效
申请号: | 201710963826.1 | 申请日: | 2017-10-17 |
公开(公告)号: | CN107590132B | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | 王莲 | 申请(专利权)人: | 语联网(武汉)信息技术有限公司 |
主分类号: | G06F40/253 | 分类号: | G06F40/253;G06F40/284;G06F40/289;G06F40/232;G06F40/47 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430073 湖北省武汉市东湖开发区光谷软件*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 更正 部分 文字 方法 英文 词性 判断 | ||
1.一种自动更正部分文字的方法,用于更正翻译文档中的特定文字,其特征在于:
所述方法包括如下步骤:
S1.将所述翻译文档与原文文档进行双语语料对齐;
S2.提取所述翻译文档中包含所述特定文字的句子,将其依序存储到序列表中;
S3.从所述序列表中依序读取句子作为当前待更正句子,获取当前待更正句子中的所述特定文字,以及该特定文字前的第一预定数量个文字和该特定文字后的第二预定数量个文字;
S4.根据所述第一预定数量个文字和该特定文字的第一组合特性,和/或,所述第二预定数量个文字和该特定文字的第二组合特性,判断所述特定文字是否需要进行更正;
所述特定文字包括“的”、“得”、“地”;
所述第一组合特性,包括所述第一预定数量个文字和该特定文字组合成实词的第一概率;
所述第二组合特性,包括所述第二预定数量个文字和该特定文字组合成实词的第二概率;
所述判断所述特定文字是否需要进行更正,是指判断所述第一概率是否大于第一阈值,和/或,判断所述第二概率是否大于第二阈值;
如果所述第一概率大于第一阈值,和/或,所述第二概率大于第二阈值,则不需要进行更正;
否则,进入下一步;
S5.查找当前待更正句子在原文文档中对应的语料句子原文,并将二者进行语料对齐,然后按照预定策略对所述特定文字进行更正。
2.如权利要求1所述的方法,所述步骤S5中按照预定策略对所述特定文字进行更正,具体包括:
识别所述特定文字、所述第一预定数量个文字、所述第二预定数量个文字在所述原文文档中对应的语料文字,根据所述语料文字的词性对所述特定文字进行更正。
3.如权利要求2所述的方法,其特征在于,根据所述语料文字的词性对所述特定文字进行更正,具体包括:
若所述语料文字为形容词+名词的形式,则将所述特定文字更正为“的”;
若所述语料文字为动词+副词的形式,则将所述特定文字更正为“地”或者“得”。
4.如权利要求3所述的方法,其特征在于,将所述特定文字更正为“地”或者“得”之后,进一步包括:识别该特定文字前的第一个字或者词的第一词性,如果第一词性为形容词,则将所述特定文字更正为“地”;如果第一词性为动词,将所述特定文字更正为“得”。
5.如权利要求4所述的方法,其特征在于,如果判断结果为需要将所述特定文字更正为“得”,则在所述翻译文档中突出显示所述特定文字以及该特定文字前的第一预定数量个文字和该特定文字后的第二预定数量个文字。
6.如权利要求1所述的方法,其特征在于,所述第一组合特性,还包括所述第一预定数量个文字和该特定文字组成词语/句子的第三概率;所述第二组合特性,包括所述第二预定数量个文字和该特定文字组成词语/句子的第四概率;判断所述特定文字是否需要进行更正,还包括:判断所述第三概率是否大于第三阈值,和/或,判断所述第四概率是否大于第四阈值。
7.一种自动更正部分文字的系统,其包含处理器和存储器,其特征在于,所述处理器和存储器存储有计算机可读指令,用于执行如权利要求1-6任意一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710963826.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种PCB板的线路形成方法
- 下一篇:一种线路板排线机构