[发明专利]一种术语识别抽取方法及系统在审
申请号: | 201810009626.7 | 申请日: | 2018-01-05 |
公开(公告)号: | CN108287825A | 公开(公告)日: | 2018-07-17 |
发明(设计)人: | 王建华;程国艮 | 申请(专利权)人: | 中译语通科技股份有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/27 |
代理公司: | 北京万贝专利代理事务所(特殊普通合伙) 11520 | 代理人: | 马红 |
地址: | 100040 北京市石*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 抽取 术语识别 翻译 组合术语 译文 工作效率 快速匹配 术语提取 语言识别 专业术语 准确率 文档 匹配 分析 | ||
本发明属于语言识别技术领域,公开了一种术语识别抽取方法及系统,包括:对术语进行多次识别抽取;识别出多术语组合术语;匹配出翻译译文;并进行术语提取。本发明为改善本地化译员工作,提高翻译效率,提供一种术语识别抽取方法,程序自动对文档进行分析,抽取专业术语,快速匹配出翻译译文,为本地化译员提高了工作效率,以及翻译的准确性。本发明对术语进行多次识别抽取,提高准确率;能准确识别多术语组合术语。
技术领域
本发明属于语言识别技术领域,尤其涉及一种术语识别抽取方法及系统。
背景技术
实际工作中发现,本地化译员在翻译文档时需要对文档中的专业术语进行手工筛选,然后再对其挨个进行专业翻译,工作过程中发现该操作不近程序繁琐而且耗时耗力,最重要的是要做很多重复性工作。现有技术本地化译员工作中,翻译效率低;准确性差。
综上所述,现有技术存在的问题是:现有技术最主要的缺陷是在术语提取时,存在相邻术语的组合是一个整体术语的情况,在处理过后就把这个大的术语拆成了多个术语,但实际是一个术语,缺陷的原因在于只是对分词之后的单个词汇做了术语分析,没有考虑临近词之间的术语关系,难点在于通过计算临近词汇的关系来判定相邻词汇的组合是否是术语。而且现有技术不能通过术语提取算法,通过计算相邻术语权重的方式来判定相邻术语组成的字符串是否是一个术语。
发明内容
针对现有技术存在的问题,本发明提供了一种术语识别抽取方法及系统。
本发明是这样实现的,一种术语识别抽取方法,所述术语识别抽取方法包括:对术语进行多次识别抽取;识别出多术语组合术语;匹配出翻译译文;并进行术语提取。
进一步,所述专业术语识别抽取包括:
a)准备:整理各语种各领域术语库、对应的翻译内容、语种及领域:
b)领域的划分;
c)操作领域和分词,通过词性标注算法对分词进行检测(分词之后对每个词通过词性标注算法进行词性标注,去除数词、量词、副词、介词、连词、助词、叹词等词性的词。),判断该分词是术语概率有多少,如果低,直接忽略,概率高的则保留;
d)根据步骤c)产生的词汇,与所述语种、领域的术语库进行匹配(拿到产生的词汇挨个去术语库匹配查询是否存在),如果匹配,认定为术语,剩余的词汇进行下一步操作;
e)步骤d)剩余的词汇,通过非术语词汇表,进行匹配过滤(拿到剩余的词汇挨个去非术词汇表查询是否存在,如果存在,那该词汇不属于术语),如果词汇存在非术语词汇表,认定该词汇不是术语;
f)与术语库、非术语库的匹配,确定出两组数据:术语、非术语。
g)将文档的术语、非术语数据通过术语提取方法重新再进行一次术语的提取。
进一步,术语提取方法进一步包括:
1)把给定的文本T按照完整句子进行分割(按照标点符号进行断句分割),T=[S1,S2,...,Sm];
2)对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词(分词之后对每个词通过词性标注算法进行词性标注,去除数词、量词、副词、介词、连词、助词、叹词等词性的词。),Si=[ti,1,ti,2,...,ti,m],其中ti,j∈Sj是保留后的候选术语;
3)构建候选术语图G=(V,E),其中V为节点集,由生成的所述候选术语组成;然后采用共现关系构造任两点之间的边(通过共现关系以当前词为中心构造出一个窗口,比如左右各移动两个词的距离,那这个窗口里面就存在了5个词),两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,最多共现K个单词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司,未经中译语通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810009626.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:语义相似度计算方法及装置
- 下一篇:一种基于医疗系统的病例读取方法