[发明专利]一种术语识别抽取方法及系统在审
| 申请号: | 201810009626.7 | 申请日: | 2018-01-05 |
| 公开(公告)号: | CN108287825A | 公开(公告)日: | 2018-07-17 |
| 发明(设计)人: | 王建华;程国艮 | 申请(专利权)人: | 中译语通科技股份有限公司 |
| 主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/27 |
| 代理公司: | 北京万贝专利代理事务所(特殊普通合伙) 11520 | 代理人: | 马红 |
| 地址: | 100040 北京市石*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 抽取 术语识别 翻译 组合术语 译文 工作效率 快速匹配 术语提取 语言识别 专业术语 准确率 文档 匹配 分析 | ||
1.一种术语识别抽取方法,其特征在于,所述术语识别抽取方法包括:对术语进行多次识别抽取;识别出多术语组合术语;匹配出翻译译文;并进行术语提取。
2.如权利要求1所述的术语识别抽取方法,其特征在于,所述专业术语识别抽取方法包括:
a)准备:整理各语种各领域术语库、对应的翻译内容、语种及领域:
b)领域的划分;
c)操作领域和分词,通过词性标注算法对分词进行检测,判断该分词是术语概率有多少,如果低,直接忽略,概率高的则保留;
d)根据步骤c)产生的词汇,与所述语种、领域的术语库进行匹配,如果匹配,认定为术语,剩余的词汇进行下一步操作;
e)步骤d)剩余的词汇,通过非术语词汇表,进行匹配过滤,如果词汇存在非术语词汇表,认定该词汇不是术语;
f)与术语库、非术语库的匹配,确定出两组数据:术语、非术语。
g)将文档的术语、非术语数据通过术语提取方法重新再进行一次术语的提取。
3.如权利要求1所述的术语识别抽取方法,其特征在于,所述专业术语识别抽取方法进一步包括:
1)把给定的文本T按照完整句子进行分割,T=[S1,S2,...,Sm];
2)对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,Si=[ti,1,ti,2,...,ti,m],其中ti,j∈Sj是保留后的候选术语;
3)构建候选术语图G=(V,E),其中V为节点集,由生成的所述候选术语组成;然后采用共现关系构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,最多共现K个单词;
4)根据上面公式,并结合庞大的语料库,迭代传播各节点的权重,直至收敛;
5)对节点权重进行倒序排序,得到最重要的T个单词,作为候选术语;
6)由5)得到最重要的T个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词术语;加入术语序列;
7)确定出两组数据:术语、非术语;
8)对两次术语处理产生的术语数据进行整合,排重,然后合并,最后得到所有术语。
4.如权利要求2所述的术语识别抽取方法,其特征在于,对分词进行检测方法为:分词之后对每个词通过词性标注算法进行词性标注,去除数词、量词、副词、介词、连词、助词、叹词等词性的词;
与所述语种、领域的术语库进行匹配方法为:拿到产生的词汇挨个去术语库匹配查询是否存在;
通过非术语词汇表,进行匹配过滤方法为:拿到剩余的词汇挨个去非术词汇表查询是否存在,如果存在,那该词汇不属于术语。
5.如权利要求3所述的术语识别抽取方法,其特征在于,把给定的文本T按照完整句子进行分割方法为:按照标点符号进行断句分割;
对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词方法为:分词之后对每个词通过词性标注算法进行词性标注,去除数词、量词、副词、介词、连词、助词、叹词等词性的词;
采用共现关系构造任两点之间的边方法为:通过共现关系以当前词为中心构造出一个窗口;
迭代传播各节点的权重方法为:在每个词的窗口内,依次计算该词跟窗口内每个词的权重关系;
对节点权重进行倒序排序方法为:按照权重大小进行倒叙排序,权重大的排在前面;
对两次术语处理产生的术语数据进行整合,排重,然后合并方法为:两次术语处理之后得到两组结果,将两组结果合并,去除重复词语只留一个。
6.一种如权利要求1~5任意一项所述的术语识别抽取方法的语言翻译系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司,未经中译语通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810009626.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:语义相似度计算方法及装置
- 下一篇:一种基于医疗系统的病例读取方法





