[发明专利]基于标签引导的字词融合的命名实体识别方法在审

专利信息
申请号: 202110027765.4 申请日: 2021-01-08
公开(公告)号: CN112699685A 公开(公告)日: 2021-04-23
发明(设计)人: 胡永利;于腾;孙艳丰;王博岳;尹宝才 申请(专利权)人: 北京工业大学
主分类号: G06F40/295 分类号: G06F40/295;G06F40/30;G06N3/04;G06N3/08
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 张慧
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 标签 引导 字词 融合 命名 实体 识别 方法
【权利要求书】:

1.基于标签引导的字词融合的命名实体识别方法,其特征在于包括以下步骤:

步骤一:通过BERT模型对待识别的句子进行预训练,得到句中每个字的特征向量:

以句子为单位进行输入,输入的序列X={x1,x2,…,xn},其中n代表一句话中字的个数,得到输入序列的特征C={c1,c2,…,ci,…,cn},其中ci为经过BERT预训练后第i个字的特征向量;

步骤二:以待识别句子中的每一个字为对象,对包含这个字的所有的分词结果进行BIE格式标注,得到每个字的分词标注结果;然后根据BIE格式类别,对每个字的分词结果进行分组;其中,对于第i个字xi,A为分词结果中包含xi的一个词,则对A进行BIE格式标注的具体过程为:如果xi为A中的第一个字符,则A被标注为B;如果xi为A中的中间字符,即非开始与结尾部分,则A被标注为I;如果xi为A中的结尾字符,则A被标注为E;

步骤三、对步骤二得到的分组结果提取每个组内所有分词的特征向量,将每个组内的所有分词的特征向量与当前字的特征向量进行融合,采用注意力机制来控制每个组的贡献程度,最后将每个组信息融合,得到每一个词的融合词向量;

步骤四:通过门控机制对字特征与融合词向量进行处理,得到所有字的门控单元的输出特征向量;

步骤五:通过BiLSTM与CRF模块对步骤四得到的所有字的融合词向量进行序列标注,得到最优序列标注,实现命名实体识别。

2.根据权利要求1所述的基于标签引导的字词融合的命名实体识别方法,其特征在于步骤三具体包括如下步骤:

(1)提取句子中所有分词结果的词特征向量W={w1,w2,…,wI},其中I代表句子中所有的分词结果;

(2)在步骤二中得到了基于当前字的分词标注结果,提取分词标注结果中每个词的词向量,其中,分词标注结果一共分为三类,即B,I,E,每一类包含0个或多个词,如果分词标注类别中包含多个结果,即多个词向量,则将其进行融合,即

其中指的是当前字i下针对每个c融合的词特征向量,c代表标注的类别,tag代表分组类别,N代表每个标注内包含的分词个数,当前字包含的词向量的集合为:

(3)对于每一个标注类别c,通过当前字的特征向量与c所属组的特征向量进行拼接,计算权重

其中,为训练的参数,σ是一个sigmoid函数,ci为当前字的特征向量;

(4)对所有类型的标签tag进行softmax操作,得到相应的注意力系数具体如下:

(5)将得到的每个类别的权重系数与对应的位置词向量进行融合,这个可以更加准确的表达当前字包含的位置词全部信息,具体如下:

其中,si是融合所有标注的位置词的输出,即当前第i个字xi的融合词向量。

3.根据权利要求2所述的基于标签引导的字词融合的命名实体识别方法,其特征在于步骤四所述的当前第i个字xi的门控单元的输出特征向量oi表示如下:

其中,代表element-wise相乘,也就是对应元素相乘,代表向量的拼接操作;

ri=σ(W1·ci+W2·si+b)

其中W1,W2为模型训练参数,b为偏置系数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110027765.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top