[发明专利]基于图卷积神经网络的中文旅游领域命名实体识别方法在审
| 申请号: | 202010087875.5 | 申请日: | 2020-02-12 |
| 公开(公告)号: | CN111259672A | 公开(公告)日: | 2020-06-09 |
| 发明(设计)人: | 西尔艾力·色提;吾买尔江·买买提明;吐尔根·依布拉音;艾山·吾买尔;买合木提·买买提;娜迪热·艾来提;阿拉提·阿扎提 | 申请(专利权)人: | 新疆大学 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04;G06N3/08 |
| 代理公司: | 北京中政联科专利代理事务所(普通合伙) 11489 | 代理人: | 黄娟 |
| 地址: | 830046 新疆维*** | 国省代码: | 新疆;65 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 图卷 神经网络 中文 旅游 领域 命名 实体 识别 方法 | ||
1.基于图卷积神经网络的中文旅游领域命名实体识别方法,其特征在于,图卷积神经网络包括输入层、嵌入层、图卷积层和层级结构,其中输入体包括命名实体和非实体;
图卷积层和层级结构中的每个节点代表旅游文本中的单个字;x1、x2、x3、x4、x5…xn,分别代表文本句子中的单个字;
图卷积层中的每个节点在提取命名实体的字符特征时,将自身所获得的特征信息经过非线性变化之后传输到下一个邻接节点,并依次传递到周围的多个节点中,具体的计算步骤如下:
S1:以旅游领域文本的任意非实体为中心同时向两边扩展,直至遍历完整个句子中的单个字;
S2:经过嵌入层将文本中的每个字逐个映射到低维的向量空间中,并输入图卷积神经网络的图卷积层中,以进行字符特征的提取;
S3:为提取文本中命名实体的字符特征,设图卷积层中的节点i有节点特征Ci,邻接矩阵为A,其图和节点矩阵的定义,如下公式A所示:
公式A:
公式A:中,v={v1,v2,v3…vn},代表图卷积层中图节点的集合;w={w1,w2,w3…wn},代表图节点边的权重集合;e={e1,e2,e3…en},代表节点与节点之间边的集合;n,m分别代表图节点数和节点特征数;
S4:文本在图卷积层中的输入和训练过程,如下公式B所示:
公式B:
公式B中,c,h,l分别代表输入特征、隐藏层和隐层层数;
S5:图卷积层的节点矩阵和邻接矩阵的优化过程,如下公式C所示:
公式C:
公式C中,σ与ω分别代表激活函数和上一层隐含层的权重;
S6:旅游领域文本数据中全部的命名实体进行标注,即,分类标签,仅可用于部分节点;在图卷积层中引入拉普拉斯正则化损失函数,对可用分类标签进行节点信息的传递,以进行节点内部结构信息的挖掘和字符特征的提取;其中,拉普拉斯正则化函数的计算过程,如下公式D所示:
公式D:
公式D中,δ0
表示部分分类标签的监督损失;f(*)函数代表图神经网络的可导函数;λ表示损失函数的加权因子;c代表图节点的特征向量矩阵;
S7:获得命名实体和非实体之间的层级关系。
2.根据权利要求1所述的基于图卷积神经网络的中文旅游领域命名实体识别方法,其特征在于,将命名实体识别问题转换为序列标注,引入自注意力机制模型来捕获旅游领域文本中长距离命名实体之间的空间关系;自注意力机制模型因在编码和解码转换时,使用Transformer框架;在自注意力机制模型的基础上,使用门控的双向长短期记忆网络;
网络结构包括输入层、Bi-LSTM层、自注意力机制层;输入层中输入的是经过字符图卷积网络提取的字符特征和命名实体的层级结构信息;
命名实体的字符特征和层级关系信息输入双向的长短期记忆网络以刻画文本中长距离命名实体之间的依赖关系,并对其进行相关的编码和解码操作;在编码-解码转换的过程中,使用自注意力机制的Transformer框架,具体的计算过程如下公式E所示:
公式E:
公式E中,表示双向长短期记忆网络在t时刻的隐藏层;表示双向的长短期记忆网络;wt表示t时刻的输入的特征向量。
3.根据权利要求2所述的基于图卷积神经网络的中文旅游领域命名实体识别方法,其特征在于,经过Transformer框架转换之后,输入分类函数,获得相关的实验结果,具体计算如下公式F所示:
公式F:τ=SoftMax(ωtanh(w,hT));
公式F中,ω表示矩阵的权重向量,hT表示网络的全部隐藏层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新疆大学,未经新疆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010087875.5/1.html,转载请声明来源钻瓜专利网。





