[发明专利]基于笔画卷积和词向量的中文命名实体识别方法及系统在审
申请号: | 202111641955.1 | 申请日: | 2021-12-29 |
公开(公告)号: | CN114298047A | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 何东之;张震;王鹏飞;孙亚茹;郭隆杭 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 北京汇信合知识产权代理有限公司 11335 | 代理人: | 孙民兴 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 笔画 卷积 向量 中文 命名 实体 识别 方法 系统 | ||
1.基于笔画卷积和词向量的中文命名实体识别方法,其特征在于,包括:
获取文本中各汉字对应的笔画序列及各汉字的字符特征向量;
将所述笔画序列输入笔画卷积神经网络,获取笔画特征向量;
根据所述文本中实体的最大长度设置滑动窗口,通过自注意力机制获取每个字在所述滑动窗口内的词向量;
拼接所述文本中各汉字的所述笔画特征向量、词向量和字符特征向量,并输入BiLSTM网络,获取每个汉字对应每种实体标签的得分;
采用CRF模型对所述文本中每个汉字确定一个最佳的所述实体标签。
2.根据权利要求1所述的中文命名实体识别方法,其特征在于:构建汉字到笔画序列的映射表,通过所述映射表获取各汉字对应的所述笔画序列。
3.根据权利要求1所述的中文命名实体识别方法,其特征在于:所述笔画卷积神经网络通过不同窗口大小的卷积核对所述笔画序列进行卷积,获取所述笔画特征向量。
4.根据权利要求3所述的中文命名实体识别方法,其特征在于:所述笔画卷积神经网络通过不同窗口大小的卷积核卷积得到笔画特征图,将所述特征图进行最大池化和全连接,得到笔画特征向量,公式为:
其中:
w表示卷积神经网络训练中的权重;
Mt,t+k-1表示输入的特征;
b表示卷积神经网络训练中的偏置。
5.根据权利要求1所述的中文命名实体识别方法,其特征在于:所述笔画卷积神经网络训练过程中加入分类损失函数L(cls):
L(cls)=-log P(z|X)=-log softmax(w*semb)
其中,
X表示输入的笔画序列;
z表示该笔画序列对应的中文标签;
w表示网络中的参数;
semb表示笔画特征向量。
6.根据权利要求1所述的中文命名实体识别方法,其特征在于:所述通过自注意力机制获取每个字在所述滑动窗口内的词向量;包括:
通过所述自注意力机制计算所述滑动窗口内每两个字之间的相似度;
采用soffmax函数根据所述相似度获取每个字在该所述滑动窗口中的词向量。
7.根据权利要求6所述的中文命名实体识别方法,其特征在于:
对所述滑动窗口内的每个汉字,根据所述字符特征向量生成对应的Query向量、Key向量和Value向量;
计算所述Query向量和Key向量的点积获取每个字的得分,将所述得分与每个字的所述Value向量相乘,获取该字在该所述滑动窗口内的词向量。
8.根据权利要求1所述的中文命名实体识别方法,其特征在于,所述采用CRF模型对所述文本中每个汉字确定一个最佳的所述实体标签;包括:
定义输入文本的字序列为x=(x1,x2,...,xn),预测标签序列为y=(y1,y2,...,yn);
定义是BiLSTM网络模型输出的第i个字标注为标签yi的预测分值;
定义一个标签转移矩阵其中表示从标签yi转换为标签yi+1的分数;
通过计算每种所述预测标签序列的最终得分;
将得分最高的所述预测标签序列作为最终的标签序列,根据标签获取到中文命名实体。
9.根据权利要求8所述的中文命名实体识别方法,其特征在于:
计算每种所述预测标签序列的条件概率
若得分最高的所述预测标签序列的条件概率也最大,则将得分最高的所述预测标签序列作为最终的标签序列。
10.一种实现如权利要求1~9任一项所述的中文命名实体识别方法的系统,其特征在于,包括预准备模块、笔画特征获取模块、词向量获取模块、标签预测模块和最佳标签获取模块;
所述预准备模块,用于:
获取文本中各汉字对应的笔画序列及各汉字的字符特征向量;
所述笔画特征获取模块,用于:
将所述笔画序列输入笔画卷积神经网络,获取笔画特征向量;
所述词向量获取模块,用于:
根据所述文本中实体的最大长度设置滑动窗口,通过自注意力机制获取每个字在所述滑动窗口内的词向量;
所述标签预测模块,用于:
拼接所述文本中各汉字的所述笔画特征向量、词向量和字符特征向量,并输入BiLSTM网络,获取每个汉字对应每种实体标签的得分;
所述最佳标签获取模块,用于:
采用CRF模型对所述文本中每个汉字确定一个最佳的所述实体标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111641955.1/1.html,转载请声明来源钻瓜专利网。