[发明专利]一种基于语义相似度的CAMEO字典翻译方法在审
申请号: | 201911332353.0 | 申请日: | 2019-12-22 |
公开(公告)号: | CN111178096A | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 杜庆峰;孙清志;倪奕玮;徐锦程 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/30 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 赵继明 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 相似 cameo 字典 翻译 方法 | ||
1.一种基于语义相似度的CAMEO字典翻译方法,其特征在于,该方法包括以下步骤:
步骤1:于计算机构建基于语义相似度的CAMEO字典翻译系统CDT,加载英文CAMEO动词词典并设定为主要输入文件;
步骤2:CDT加载用于对CAMEO动词词典进行解释的CAMEO编码体系;
步骤3:于CDT中利用WordNet语义并结合CAMEO编码体系对CAMEO动词词典中每个词识别词的语义特征并提取相关的英文同义词集;
步骤4:利用英文同义词集,得到对应语义的中文同义词集,并获取中英文词之间的语义相似度,利用其他现有翻译系统公开的API接口获取相关词汇翻译结果并进行补充;
步骤5:于CDT中设定语义相似度阈值,排除不一致的翻译结果,并将剩余的词汇翻译结果展示于计算机前端页面;
步骤6:于CDT中根据CAMEO框架事件编码定义,以验证WordNet语义翻译结果准确性;
步骤7:于CDT中保存最终验证后的词汇翻译结果,并将其输出为中文动词字典格式。
2.根据权利要求1所述的一种基于语义相似度的CAMEO字典翻译方法,其特征在于,所述的步骤1、步骤2、步骤3和步骤4均通过后台程序实现。
3.根据权利要求1所述的一种基于语义相似度的CAMEO字典翻译方法,其特征在于,所述的步骤6通过前端的专业人员进行标识,标识的内容包括正确、错误和有歧义,若不存在正确翻译结果,所述专业人员能够添加人工翻译内容。
4.根据权利要求1所述的一种基于语义相似度的CAMEO字典翻译方法,其特征在于,所述的步骤2中的CAMEO编码体系为在政治领域的事件分类的本体论,其中对所有政治领域的事件共分为20个大类,300个小类,每一类均使用层次型编码标识,每种类别均包含类别的详细解释与相关示例。
5.根据权利要求1所述的一种基于语义相似度的CAMEO字典翻译方法,其特征在于,所述的步骤3中的语义特征包括该词的所有同义词组。
6.根据权利要求1所述的一种基于语义相似度的CAMEO字典翻译方法,其特征在于,所述步骤4中的现有翻译系统包括百度翻译系统和有道翻译系统。
7.根据权利要求1所述的一种基于语义相似度的CAMEO字典翻译方法,其特征在于,所述的步骤5中的阈值通过实验对比确定,用于能够通过此阈值筛选明显错误的选项,以减少前端人员的标注量。
8.根据权利要求1所述的一种基于语义相似度的CAMEO字典翻译方法,其特征在于,所述的步骤6中的CAMEO框架事件编码定义具体包括:以编码名称、事件种类描述、使用方式与编码案例,四元信息进行解释当前词组含义。
9.根据权利要求1所述的一种基于语义相似度的CAMEO字典翻译方法,其特征在于,所述的步骤6还包括当WordNet语义翻译结果不准确时,将该翻译结果自动添加至删除结果集合中,用于过滤相同类别词的翻译结果以减少人工工作提高效率。
10.根据权利要求1所述的一种基于语义相似度的CAMEO字典翻译方法,其特征在于,所述的步骤7中的中文动词字典格式采用省略介词处理的中文动词字典格式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911332353.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种商用炉灶快速去水除渣结构
- 下一篇:一种智能网联汽车事故减少量计算方法