[发明专利]字典树翻译方法在审
| 申请号: | 201410611501.3 | 申请日: | 2014-11-04 |
| 公开(公告)号: | CN104331399A | 公开(公告)日: | 2015-02-04 |
| 发明(设计)人: | 刘禹;李欣 | 申请(专利权)人: | 一朵云(北京)科技有限公司 |
| 主分类号: | G06F17/28 | 分类号: | G06F17/28 |
| 代理公司: | 北京知本村知识产权代理事务所 11039 | 代理人: | 李培英 |
| 地址: | 100040 北京市石景山区八*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 字典 翻译 方法 | ||
1. 一种字典树翻译方法,其特征在于, 包括以下步骤:
步骤1:将稿件进行处理,转换成标准的文本文件,以utf-8进行编码,记录为原文内容;
步骤2:对文本文件进行处理,按照每个换行符是一段的格式进行存储;
步骤3:确定原文内容中的翻译内容,去除每一行中的符号、数字,并根据Unicode编码表,去除每一行中不需要翻译的部分,剩下部分记录为翻译内容;
步骤4:确定翻译内容中的重复内容,当行中翻译内容相同时,则把他们记录为重复内容;
步骤5:计算翻译内容和重复内容的总长度;
步骤6:将重复内容的总长度与翻译内容的总长度进行比较,当重复内容的总长度占翻译内容的总长度的比值大于预先设定的阀值时,则记录稿件为字典树模式;当小于预先设定的阀值则不对稿件进行任何处理,返回原文内容;
步骤7:稿件被记录为字典树模式后,将符号、数字以及不需要翻译的内容进行标记;
步骤8:将重复内容的第一个单元标记为需要翻译,其他单元标记为已经完成并将这些信息存储到数据库中;
步骤9:对标记为需要翻译的内容进行翻译,翻译完成后,将所有标记内容替换到原文位置,完成翻译。
2.根据权利要求1所述的字典树翻译方法,其特征在于,在计算翻译内容和重复内容的总长度时,根据unicode编码表,确定各语言的编码范围,拼音文字按照空白符切分统计字数,每个单词计数为1,方块字按照字符统计字数,每个字符计数为1。
3.根据权利要求1所述的字典树翻译方法,其特征在于,遍历原文内容数组,以翻译内容做为PHP关联数组的键值,按翻译内容对原文进行分组,任何分组的组成员数大于等于2时,即标记为含重复内容分组。
4.根据权利要求1所述的字典树翻译方法,其特征在于,通过window service的office组件把doc、docx、ppt、pptx稿件转换成标准的xml结构。
5.根据权利要求1所述的字典树翻译方法,其特征在于,采用第三方类库PHPExcel,来处理xlsx和xls稿件。
6.根据权利要求1所述的字典树翻译方法,其特征在于,稿件被记录为字典树模式后,将符号、数字以及不需要翻译的内容用[[]]符号进行标记。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于一朵云(北京)科技有限公司,未经一朵云(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410611501.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于IMS的终端管理及业务发放系统
- 下一篇:一种物联网系统





