[发明专利]一种利于翻译工作的文件抽取和还原方法有效
| 申请号: | 201510357672.2 | 申请日: | 2015-06-25 |
| 公开(公告)号: | CN104933041B | 公开(公告)日: | 2017-09-01 |
| 发明(设计)人: | 江潮;罗伟峰 | 申请(专利权)人: | 武汉传神信息技术有限公司 |
| 主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/30 |
| 代理公司: | 北京华沛德权律师事务所11302 | 代理人: | 房德权 |
| 地址: | 430074 湖北省武汉市东湖开发区光谷软件*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 利于 翻译 工作 文件 抽取 还原 方法 | ||
技术领域
本发明涉及一种利于翻译工作的人工智能、文档处理的方法。
背景技术
伴随着中国跻身于世界第二大经济体,“一带一路”等战略的稳步实施,中国各领域与世界的联系更为紧密。国际化的进程中多国之间的沟通交流所需要的语言支持服务市场显得愈加庞大,这给翻译行业带来了新的机遇和挑战。
翻译行业的从业人员每天要面对大量的各种格式的需要翻译的稿件,由于稿件的种类繁多,相应的翻译人员就需要掌握各类文档程序如Word,Excel,PPT,PDF的使用以及各类文档辅助翻译工具的使用。这对于专职的翻译人员来说是很大的挑战和门槛,很明显这类问题已经阻碍到了整个行业的发展乃至于中国全球化的进程。
因此,需要提出一种将等多种主流文档格式转换成为统一的标准样式的文档并且也可以反过来将转化得到的标准文档还原为原稿格式的方法。以简化翻译工作、提高翻译效率。
发明内容
本发明所要解决的技术问题是简化翻译工作、提高翻译效率,提出一种利于翻译工作的文件抽取和还原方法。
为解决上述技术问题,本发明提出的利于翻译工作的文件抽取和还原方法,包括以下步骤:
1)利用Aspose动态链接库对文档处理的操作支持,将待翻译的文档对象拆解成以单句为最小单位的待翻译数据集合;
2)建立一个译员处理文档,所述译员处理文档设有“原文”、“译文”和id三个字段,所述“原文”字段对应句子原文,“译文”字段对应句子译文;
3)将所述以单句为最小单位的待翻译数据集合中的每一个句子按顺序逐一复制到所述译员处理文档的“原文”字段,然后将待翻译数据集合中该句子的内容用一个具有唯一性的占位符号Guid替代,且相邻的占位符号Guid具有不同的字符格式;所述id字段的内容与所述不同的Guid之间具有一一映射的关系;
4)将所述译员处理文档下发到译员,所述译员在所述译员处理文档中逐个翻译“原文”字段的原文,填写到对应的“译文”字段,直到处理完成;
5)遍历所述待翻译数据集合和译员处理文档,根据不同Guid对应的不同id,找到该id对应的译文,覆盖写到所述待翻译数据集合中该对应Guid的位置。
6)调用Aspose动态链接库,将所述待翻译数据集合还原为原稿格式的文档。
所述将待翻译的文档对象拆解成以句为最小单位的待翻译数据集合,包括以下步骤:
1-1调用Aspose组件;
1-2遍历所述文档对象,得到全部段落对象,所述段落对象包含文档对象全部的文字信息,而不包括无需翻译的符号、图像或其它非文字信息;
1-3遍历每一个段落对象的子节点对象,从而得到若干个的字符集合对象Run。Aspose组件中提供段落对象、子节点对象,以及方便字符操作的Run对象,所述Run对象是文档内连续的字符格式一致的字符片段集合。
1-4遍历每一个Run对象,将全部Run对象拆分成一个个仅包含有一个完整的句子的Run对象,或者为仅包含有一个句子片段的Run对象;
1-5遍历每一个Run对象,将仅包含有句子片段的Run对象合并到其后续的仅包含有一个完整的句子的Run对象中。
完成后,得到以句子为最小单位的,一个个仅包含有一个完整的句子的Run对象的集合。
所述将仅包含有一个句子片段的Run对象合并到后续Run对象,包括以下步骤:
1-4-1将仅为一个句子片段的Run对象的字符内容取出,存放在临时存储单元,然后在段落对象中删除该Run对象;
1-4-2检查下一个Run对象,如果该Run对象的字符内容仅为一个句子片段,则取出该Run对象的字符内容,添加到临时存储单元,然后在段落对象中删除该Run对象,继续检查下下一个Run对象;否则,取出临时存储单元存放字符内容,添加到该下一个Run对象的字符内容之前,然后清空所述临时存储单元。
1-4-3如果该下一个Run对象的字符内容是以句子结束符作为结尾的,则将所述临时存储单元存放的字符内容取出,添加到该下一个Run对象的字符内容之前,然后清空所述临时存储单元。
本发明还包括,建立一个字典对象,所述字典对象的key为原文,value为译文,原文-译文为一个键值对;在遍历所述译员处理文档时,将一个记录中对应的原文-译文,分别写入所述字典对象。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉传神信息技术有限公司,未经武汉传神信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510357672.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:中文地址分词标注方法
- 下一篇:具有送线供气导引选择机构的缝纫机结构





