[发明专利]一种新术语识别方法有效

申请号：	201510845390.7	申请日：	2015-11-27
公开（公告）号：	CN106815187B	公开（公告）日：	2020-04-14
发明（设计）人：	符建辉;王卫明;曹阳	申请（专利权）人：	中科国力（镇江）智能技术有限公司
主分类号：	G06F40/279	分类号：	G06F40/279;G06F40/284
代理公司：	南京知识律师事务所 32207	代理人：	高娇阳
地址：	212009 江苏省镇江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种术语识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种新术语识别方法，其特征在于：包括以下步骤：

第一步：文本词序列模块A对输入文本库RCorpus中的每篇文本进行分词，形成文本词序列；

我们采用一个开源的ICTCLAS系统对RCorpus中的每篇输入文本D进行分词，分词结果为T′＝W₁/pos₁ W₂/pos₂ … W_i/pos_i … W_n/pos_n，其中每个W_i是一个汉语词、汉字、标点符号、阿拉伯数字、英文单词或字母，pos_i是其对应的词性；

为了表示区别，RCorpus中的每篇文本文本经过分词后，所产生的文本，我们记为TCorpus；

第二步：新术语识别模块B对分词后的文本库TCorpus中的每篇文本词语序列进行新术语识别；

当前待识别文本为D_i，T_i为它的标题，S_ij为D_i的当前待识别的第j条语句；对S_ij进行以下步骤的处理，形成候选的新术语结果，存放在集合tmp_result中：

步骤B1：设置tmp_result为空；

tmp_result用于存放识别出的新术语结果，传递给验证模块C进行验证；因此，tmp_result中的新术语结果也称候选的新术语结果，也称待验证的新术语结果；

步骤B2：将S_ij中连续最长的、词性标记为a、b、j、n、m、q的词形成一个候选新术语，记为NewTerm；所述“连续最长”，是指在S_ij中NewTerm的两端没有词性为a、b、j、n的词；

步骤B3：如果在S_ij中紧接着NewTerm的词语W的词性是k，即W可能是NewTerm的后缀，则设置

步骤B4：如果在S_ij中位于NewTerm之前的词语W的词性是h，即W可能是NewTerm的前缀，则设置

步骤B5：将(NewTerm，T_i，S_ij)放入tmp_result中；

第三步：验证模块C对识别的新术语进行验证；

验证模块C的主要工作是采用多源验证法、特殊验证法，对新术语识别模块B产生的tmp_result中的新术语进行验证，验证过的新术语放入集合result中；验证模块C的方法如下：

步骤C1：设置result为空；

步骤C2：对tmp_result中的每一对(NewTerm，T_i，S_ij)循环做以下步骤C3、C4和C5；

步骤C3：如果在tmp_result中存在(NewTerm，T_i′，S_ij′)，并且T_i与T_i′不同“即NewTerm出现在TCorpus中的两篇不同的文本中”，则将NewTerm放入result中；否则，执行步骤C4：

如上述步骤C3中所述，尽管NewTerm在题名为T_i的语句S_ij中被识别为候选新术语，但是NewTerm并不一定就是一个正确的新术语；但是，在题名为T_i′的语句S_ij′中也被识别为新术语，则NewTerm是正确的新术语的可能性会大大提升；

步骤C4：如果在种子词典中存在一个种子术语Term，使得NewTerm与Term的加权相似度wsim(NewTerm，Term)＞α，其中α∈[0，1]为一个阈值，则将NewTerm放入result中；否则，执行步骤C5；

为给出两个术语的加权相似度wsim(NewTerm，Term)的计算，我们先给出函数2gram的计算方法；对一个非空汉字串Sent＝C₁C₂…C_i-1C_i…C_K-1C_K，其中C_i为汉字、数字、英文字母，我们引入一个带头尾标记的汉字串Sent＝$C₁C₂…C_i-1C_i…C_K-1C_K$；2gram(Sent)是一个由Sent中自左向右连续的两个字符构成的集合，即2gram(Sent)＝{$C₁，C₁C₂，…，C_k-1C_K，C_K$}；

需要指出的是，2gram(Sent)中各个元素的重要性不相同：C_i-1C_i是汉语中的一个词时，C_i-1C_i在2gram(Sent)的作用更大；为了反映出2gram(Sent)中各个元素的重要性，对Interset(S₁，S₂)进行改进，引入一个新的基数，叫作加权交集基数WInterset(S₁，S₂)，其中；其计算方法如下：对给定了两个集合S₁和S₂：(1)WInterset(S₁，S₂)＝0；

(2)对Interset(S₁，S₂)每一个元素e，如果e是汉语中的一个词，则WInterset(S₁，S₂)＝WInterset(S₁，S₂)+1.2，即WInterset(S₁，S₂)累加1.2，而不是1；否则WInterset(S₁，S₂)＝WInterset(S₁，S₂)+1，即WInterset(S₁，S₂)累加1；

wsim(NewTerm，Term)的计算方法如下：

(1)如果NewTerm与Term具有相同的前缀和后缀，wsim(NewTerm，Term)＝1；

(2)如果NewTerm与Term不具有相同的前缀和后缀，

其中，集合的交集、并集、基数：给定两个集合S₁和S₂，它们的并集记为Interset(S₁，S₂)；

步骤C5：利用NewTerm在S_ij的语境进行验证；具体方法是：当NewTerm在S_ij前面的分词的词性为c、d、p、r、u、z之一，并NewTerm在S_ij后面的分词的词性为c、d、p、r、u、z之一时，NewTerm是一个正确的新术语，加入到result中；否则放弃，即不加入到result中；

步骤C6：输出result做为最后结果；

其中，a表示形容词、b表示区别词、c表示连词、d表示副词、h表示前缀词、j表示简称词、k表示后缀词、m表示数词、n表示名词、p表示介词、q表示量词、r表示代词、u表示助词、z表示状态词。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中科国力（镇江）智能技术有限公司，未经中科国力（镇江）智能技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510845390.7/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种新术语识别方法有效

专利文献下载