[发明专利]基于标签引导的字词融合的命名实体识别方法在审
| 申请号: | 202110027765.4 | 申请日: | 2021-01-08 |
| 公开(公告)号: | CN112699685A | 公开(公告)日: | 2021-04-23 |
| 发明(设计)人: | 胡永利;于腾;孙艳丰;王博岳;尹宝才 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张慧 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 标签 引导 字词 融合 命名 实体 识别 方法 | ||
1.基于标签引导的字词融合的命名实体识别方法,其特征在于包括以下步骤:
步骤一:通过BERT模型对待识别的句子进行预训练,得到句中每个字的特征向量:
以句子为单位进行输入,输入的序列X={x1,x2,…,xn},其中n代表一句话中字的个数,得到输入序列的特征C={c1,c2,…,ci,…,cn},其中ci为经过BERT预训练后第i个字的特征向量;
步骤二:以待识别句子中的每一个字为对象,对包含这个字的所有的分词结果进行BIE格式标注,得到每个字的分词标注结果;然后根据BIE格式类别,对每个字的分词结果进行分组;其中,对于第i个字xi,A为分词结果中包含xi的一个词,则对A进行BIE格式标注的具体过程为:如果xi为A中的第一个字符,则A被标注为B;如果xi为A中的中间字符,即非开始与结尾部分,则A被标注为I;如果xi为A中的结尾字符,则A被标注为E;
步骤三、对步骤二得到的分组结果提取每个组内所有分词的特征向量,将每个组内的所有分词的特征向量与当前字的特征向量进行融合,采用注意力机制来控制每个组的贡献程度,最后将每个组信息融合,得到每一个词的融合词向量;
步骤四:通过门控机制对字特征与融合词向量进行处理,得到所有字的门控单元的输出特征向量;
步骤五:通过BiLSTM与CRF模块对步骤四得到的所有字的融合词向量进行序列标注,得到最优序列标注,实现命名实体识别。
2.根据权利要求1所述的基于标签引导的字词融合的命名实体识别方法,其特征在于步骤三具体包括如下步骤:
(1)提取句子中所有分词结果的词特征向量W={w1,w2,…,wI},其中I代表句子中所有的分词结果;
(2)在步骤二中得到了基于当前字的分词标注结果,提取分词标注结果中每个词的词向量,其中,分词标注结果一共分为三类,即B,I,E,每一类包含0个或多个词,如果分词标注类别中包含多个结果,即多个词向量,则将其进行融合,即
其中指的是当前字i下针对每个c融合的词特征向量,c代表标注的类别,tag代表分组类别,N代表每个标注内包含的分词个数,当前字包含的词向量的集合为:
(3)对于每一个标注类别c,通过当前字的特征向量与c所属组的特征向量进行拼接,计算权重
其中,为训练的参数,σ是一个sigmoid函数,ci为当前字的特征向量;
(4)对所有类型的标签tag进行softmax操作,得到相应的注意力系数具体如下:
(5)将得到的每个类别的权重系数与对应的位置词向量进行融合,这个可以更加准确的表达当前字包含的位置词全部信息,具体如下:
其中,si是融合所有标注的位置词的输出,即当前第i个字xi的融合词向量。
3.根据权利要求2所述的基于标签引导的字词融合的命名实体识别方法,其特征在于步骤四所述的当前第i个字xi的门控单元的输出特征向量oi表示如下:
其中,代表element-wise相乘,也就是对应元素相乘,代表向量的拼接操作;
ri=σ(W1·ci+W2·si+b)
其中W1,W2为模型训练参数,b为偏置系数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110027765.4/1.html,转载请声明来源钻瓜专利网。





