[发明专利]一种新术语识别方法有效
| 申请号: | 201510845390.7 | 申请日: | 2015-11-27 |
| 公开(公告)号: | CN106815187B | 公开(公告)日: | 2020-04-14 |
| 发明(设计)人: | 符建辉;王卫明;曹阳 | 申请(专利权)人: | 中科国力(镇江)智能技术有限公司 |
| 主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/284 |
| 代理公司: | 南京知识律师事务所 32207 | 代理人: | 高娇阳 |
| 地址: | 212009 江苏省镇江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 术语 识别 方法 | ||
1.一种新术语识别方法,其特征在于:包括以下步骤:
第一步:文本词序列模块A对输入文本库RCorpus中的每篇文本进行分词,形成文本词序列;
我们采用一个开源的ICTCLAS系统对RCorpus中的每篇输入文本D进行分词,分词结果为T′=W1/pos1 W2/pos2 … Wi/posi … Wn/posn,其中每个Wi是一个汉语词、汉字、标点符号、阿拉伯数字、英文单词或字母,posi是其对应的词性;
为了表示区别,RCorpus中的每篇文本文本经过分词后,所产生的文本,我们记为TCorpus;
第二步:新术语识别模块B对分词后的文本库TCorpus中的每篇文本词语序列进行新术语识别;
当前待识别文本为Di,Ti为它的标题,Sij为Di的当前待识别的第j条语句;对Sij进行以下步骤的处理,形成候选的新术语结果,存放在集合tmp_result中:
步骤B1:设置tmp_result为空;
tmp_result用于存放识别出的新术语结果,传递给验证模块C进行验证;因此,tmp_result中的新术语结果也称候选的新术语结果,也称待验证的新术语结果;
步骤B2:将Sij中连续最长的、词性标记为a、b、j、n、m、q的词形成一个候选新术语,记为NewTerm;所述“连续最长”,是指在Sij中NewTerm的两端没有词性为a、b、j、n的词;
步骤B3:如果在Sij中紧接着NewTerm的词语W的词性是k,即W可能是NewTerm的后缀,则设置
步骤B4:如果在Sij中位于NewTerm之前的词语W的词性是h,即W可能是NewTerm的前缀,则设置
步骤B5:将(NewTerm,Ti,Sij)放入tmp_result中;
第三步:验证模块C对识别的新术语进行验证;
验证模块C的主要工作是采用多源验证法、特殊验证法,对新术语识别模块B产生的tmp_result中的新术语进行验证,验证过的新术语放入集合result中;验证模块C的方法如下:
步骤C1:设置result为空;
步骤C2:对tmp_result中的每一对(NewTerm,Ti,Sij)循环做以下步骤C3、C4和C5;
步骤C3:如果在tmp_result中存在(NewTerm,Ti′,Sij′),并且Ti与Ti′不同“即NewTerm出现在TCorpus中的两篇不同的文本中”,则将NewTerm放入result中;否则,执行步骤C4:
如上述步骤C3中所述,尽管NewTerm在题名为Ti的语句Sij中被识别为候选新术语,但是NewTerm并不一定就是一个正确的新术语;但是,在题名为Ti′的语句Sij′中也被识别为新术语,则NewTerm是正确的新术语的可能性会大大提升;
步骤C4:如果在种子词典中存在一个种子术语Term,使得NewTerm与Term的加权相似度wsim(NewTerm,Term)>α,其中α∈[0,1]为一个阈值,则将NewTerm放入result中;否则,执行步骤C5;
为给出两个术语的加权相似度wsim(NewTerm,Term)的计算,我们先给出函数2gram的计算方法;对一个非空汉字串Sent=C1C2…Ci-1Ci…CK-1CK,其中Ci为汉字、数字、英文字母,我们引入一个带头尾标记的汉字串Sent=$C1C2…Ci-1Ci…CK-1CK$;2gram(Sent)是一个由Sent中自左向右连续的两个字符构成的集合,即2gram(Sent)={$C1,C1C2,…,Ck-1CK,CK$};
需要指出的是,2gram(Sent)中各个元素的重要性不相同:Ci-1Ci是汉语中的一个词时,Ci-1Ci在2gram(Sent)的作用更大;为了反映出2gram(Sent)中各个元素的重要性,对Interset(S1,S2)进行改进,引入一个新的基数,叫作加权交集基数WInterset(S1,S2),其中;其计算方法如下:对给定了两个集合S1和S2:(1)WInterset(S1,S2)=0;
(2)对Interset(S1,S2)每一个元素e,如果e是汉语中的一个词,则WInterset(S1,S2)=WInterset(S1,S2)+1.2,即WInterset(S1,S2)累加1.2,而不是1;否则WInterset(S1,S2)=WInterset(S1,S2)+1,即WInterset(S1,S2)累加1;
wsim(NewTerm,Term)的计算方法如下:
(1)如果NewTerm与Term具有相同的前缀和后缀,wsim(NewTerm,Term)=1;
(2)如果NewTerm与Term不具有相同的前缀和后缀,
其中,集合的交集、并集、基数:给定两个集合S1和S2,它们的并集记为Interset(S1,S2);
步骤C5:利用NewTerm在Sij的语境进行验证;具体方法是:当NewTerm在Sij前面的分词的词性为c、d、p、r、u、z之一,并NewTerm在Sij后面的分词的词性为c、d、p、r、u、z之一时,NewTerm是一个正确的新术语,加入到result中;否则放弃,即不加入到result中;
步骤C6:输出result做为最后结果;
其中,a表示形容词、b表示区别词、c表示连词、d表示副词、h表示前缀词、j表示简称词、k表示后缀词、m表示数词、n表示名词、p表示介词、q表示量词、r表示代词、u表示助词、z表示状态词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科国力(镇江)智能技术有限公司,未经中科国力(镇江)智能技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510845390.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:排版处理方法及装置
- 下一篇:一种汉语兼语结构获取方法





