[发明专利]一种基于语义相似度的CAMEO字典翻译方法在审
申请号: | 201911332353.0 | 申请日: | 2019-12-22 |
公开(公告)号: | CN111178096A | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 杜庆峰;孙清志;倪奕玮;徐锦程 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/30 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 赵继明 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 相似 cameo 字典 翻译 方法 | ||
本发明涉及一种基于语义相似度的CAMEO字典翻译方法,构建了一个基于语义相似度的CAMEO字典翻译系统,CAMEO DICTIONARY TRANSLATE(CDT),其主要利用WordNet语义,从语义相似度的角度翻译中英文专业词汇。辅助利用百度翻译\有道词典等公开API接口进行翻译补充,得到完整的词汇翻译单。翻译人员根据专业领域词汇解释,对上述翻译单中进行筛选,从而获得中文专业领域词汇字典。与现有技术相比,本发明综合考虑中英文专业领域字典的各自特点,在语义相似度的角度提出中英文专业领域字典翻译方案。
技术领域
本发明涉及计算机专业字典翻译技术领域,尤其是涉及一种基于语义相似度 的CAMEO字典翻译方法。
背景技术
目前存在的翻译技术只能在通用领域获得较好的结果,但在专业领域的翻译 结果往往是不理想的。这是由于用于翻译模型训练的语料在专业领域通常比较缺乏, 语料比例不平衡导致。所以使用翻译软件翻译专业词汇时更容易获得一个歧义的结 果。
WordNet是由心理学家,语言学家和计算机工程师联合设计的一种基于认知 语言学的英文字典,其最大的特点是按照单词的语义构成单词的网络。在此网络中, 动词,名词和形容词各自组成同义词网路,每个子网络内以语义为单位构成同义词 集,并且同义词集间存在上下位关系。目前WordNet对一词多义,一义多词问题 提供了解决方案。
CAMEO(Conflict and Mediation Event Observations)是用于全球范围内在政治 领域分析冲突与调解事件的编码框架。CAMEO已成为迄今为止最成功的事件数 据项目的基石。然而,CAMEO编码框架只能依靠英文语言进行分析,这极大的限 制了CAMEO框架的实用价值。
目前国内常用的翻译软件如有道词典\百度翻译等,对于句子级翻译往往可以 获得理想的结果,但是对于专业领域词汇或者词组的翻译却达不到理想的结果,这 与语料不平衡以及待翻译词或词组无法提供足够的上下文信息有关。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于语义相 似度的CAMEO字典翻译方法。
本发明的目的可以通过以下技术方案来实现:
一种基于语义相似度的CAMEO字典翻译方法,该方法包括以下步骤:
步骤1:于计算机构建基于语义相似度的CAMEO字典翻译系统CDT,加载 英文CAMEO动词词典并设定为主要输入文件;
步骤2:CDT加载用于对CAMEO动词词典进行解释的CAMEO编码体系;
步骤3:于CDT中利用WordNet语义并结合CAMEO编码体系对CAMEO动 词词典中每个词识别词的语义特征并提取相关的英文同义词集;
步骤4:利用英文同义词集,得到对应语义的中文同义词集,并获取中英文词 之间的语义相似度,利用其他现有翻译系统公开的API接口获取相关词汇翻译结 果并进行补充;
步骤5:于CDT中设定语义相似度阈值,排除不一致的翻译结果,并将剩余 的词汇翻译结果展示于计算机前端页面;
步骤6:于CDT中根据CAMEO框架事件编码定义,以验证WordNet语义翻 译结果准确性;
步骤7:于CDT中保存最终验证后的词汇翻译结果,并将其输出为中文动词 字典格式。
进一步地,所述的步骤1、步骤2、步骤3和步骤4均通过后台程序实现。
进一步地,所述的步骤6通过前端的专业人员进行标识,标识的内容包括正确、 错误和有歧义,若不存在正确翻译结果,所述专业人员能够添加人工翻译内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911332353.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种商用炉灶快速去水除渣结构
- 下一篇:一种智能网联汽车事故减少量计算方法