[发明专利]一种术语识别抽取方法及系统在审

专利信息
申请号: 201810009626.7 申请日: 2018-01-05
公开(公告)号: CN108287825A 公开(公告)日: 2018-07-17
发明(设计)人: 王建华;程国艮 申请(专利权)人: 中译语通科技股份有限公司
主分类号: G06F17/28 分类号: G06F17/28;G06F17/27
代理公司: 北京万贝专利代理事务所(特殊普通合伙) 11520 代理人: 马红
地址: 100040 北京市石*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 抽取 术语识别 翻译 组合术语 译文 工作效率 快速匹配 术语提取 语言识别 专业术语 准确率 文档 匹配 分析
【权利要求书】:

1.一种术语识别抽取方法,其特征在于,所述术语识别抽取方法包括:对术语进行多次识别抽取;识别出多术语组合术语;匹配出翻译译文;并进行术语提取。

2.如权利要求1所述的术语识别抽取方法,其特征在于,所述专业术语识别抽取方法包括:

a)准备:整理各语种各领域术语库、对应的翻译内容、语种及领域:

b)领域的划分;

c)操作领域和分词,通过词性标注算法对分词进行检测,判断该分词是术语概率有多少,如果低,直接忽略,概率高的则保留;

d)根据步骤c)产生的词汇,与所述语种、领域的术语库进行匹配,如果匹配,认定为术语,剩余的词汇进行下一步操作;

e)步骤d)剩余的词汇,通过非术语词汇表,进行匹配过滤,如果词汇存在非术语词汇表,认定该词汇不是术语;

f)与术语库、非术语库的匹配,确定出两组数据:术语、非术语。

g)将文档的术语、非术语数据通过术语提取方法重新再进行一次术语的提取。

3.如权利要求1所述的术语识别抽取方法,其特征在于,所述专业术语识别抽取方法进一步包括:

1)把给定的文本T按照完整句子进行分割,T=[S1,S2,...,Sm];

2)对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,Si=[ti,1,ti,2,...,ti,m],其中ti,j∈Sj是保留后的候选术语;

3)构建候选术语图G=(V,E),其中V为节点集,由生成的所述候选术语组成;然后采用共现关系构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,最多共现K个单词;

4)根据上面公式,并结合庞大的语料库,迭代传播各节点的权重,直至收敛;

5)对节点权重进行倒序排序,得到最重要的T个单词,作为候选术语;

6)由5)得到最重要的T个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词术语;加入术语序列;

7)确定出两组数据:术语、非术语;

8)对两次术语处理产生的术语数据进行整合,排重,然后合并,最后得到所有术语。

4.如权利要求2所述的术语识别抽取方法,其特征在于,对分词进行检测方法为:分词之后对每个词通过词性标注算法进行词性标注,去除数词、量词、副词、介词、连词、助词、叹词等词性的词;

与所述语种、领域的术语库进行匹配方法为:拿到产生的词汇挨个去术语库匹配查询是否存在;

通过非术语词汇表,进行匹配过滤方法为:拿到剩余的词汇挨个去非术词汇表查询是否存在,如果存在,那该词汇不属于术语。

5.如权利要求3所述的术语识别抽取方法,其特征在于,把给定的文本T按照完整句子进行分割方法为:按照标点符号进行断句分割;

对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词方法为:分词之后对每个词通过词性标注算法进行词性标注,去除数词、量词、副词、介词、连词、助词、叹词等词性的词;

采用共现关系构造任两点之间的边方法为:通过共现关系以当前词为中心构造出一个窗口;

迭代传播各节点的权重方法为:在每个词的窗口内,依次计算该词跟窗口内每个词的权重关系;

对节点权重进行倒序排序方法为:按照权重大小进行倒叙排序,权重大的排在前面;

对两次术语处理产生的术语数据进行整合,排重,然后合并方法为:两次术语处理之后得到两组结果,将两组结果合并,去除重复词语只留一个。

6.一种如权利要求1~5任意一项所述的术语识别抽取方法的语言翻译系统。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司,未经中译语通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810009626.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top