[发明专利]一种基于知网的多义词中文实体关系识别方法有效
| 申请号: | 202110309085.1 | 申请日: | 2021-03-23 |
| 公开(公告)号: | CN113239663B | 公开(公告)日: | 2022-07-12 |
| 发明(设计)人: | 赵忠华;余在洋;王禄恒;张磊;赵志云;王勇;葛自发;孙小宁;万欣欣;李欣;孙立远;付培国;王晴;杜宛真 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;中国科学院信息工程研究所 |
| 主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F40/216;G06F40/242;G06F40/284;G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
| 地址: | 北京市朝阳区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 知网 多义词 中文 实体 关系 识别 方法 | ||
1.一种基于知网的多义词中文实体关系识别方法,其步骤包括:
1)对中文网事数据中的每一条语料样本基于知网进行字颗粒度的向量化,得到每一个字对的字颗粒度向量;然后对每一字颗粒度向量所在的位置信息进行编码,得到语料中每个字与预标注的待识别实体关系对的相对位置编码;
2)根据步骤1)所得结果生成每一语料样本的字颗粒度语义向量集合其中,M为一条语料样本的字数,语料样本中第i个字ci对应的字颗粒度向量记为ci相对于待识别实体关系对的位置编码为将转置为向量将向量拼接为代表ci的字向量,i=1~M;
3)基于知网获取中文网事数据中的每一条语料样本中的词汇并生成每一词汇的词向量集合;其中词汇w表示为wb,e,当词汇w具有K重多义时,多义词w的第k种释义的语义向量表示为b代表词汇w在语料中的起始相对位置,e代表词汇w在语料中的终止相对位置,k代表多义词w的第k种释义,k=1~K;多义词w对应的语义向量集合表示为一条长度为N的语料的词颗粒度语义向量集合表示为为第N个词汇对应的语义向量集合;
4)将每条语料样本中的字向量词向量拼接得到向量x={xc,xsen},构成多颗粒度的词格结构语义向量,对存在于语料中的所有词格span进行相对位置编码;其中,利用语义向量xi代表xc中的一字向量或xsen中的一词向量,head[i]、tail[i]代表xi在语料中的起始、终止相对位置;
5)根据每条语料样本中xi对应的词格span相对位置编码,生成xi的位置编码;
6)利用各语义向量及其对应位置编码训练深度自注意力神经网络,得到深度自注意力神经网络编码器;
7)对于待处理语料,生成该待处理语料中字和词汇的语义向量,然后将每一语义向量及其对应位置编码输入深度自注意力神经网络编码器,得到该待处理语料中的实体关系。
2.如权利要求1所述的方法,其特征在于,深度自注意力神经网络根据公式确定语料中的语义向量xi语义向量与xj之间的相对位置关系Ri,j;然后基于相对位置关系Ri,j和语义向量xi、xj,计算语义向量xi对语义向量xj的注意力权重然后基于注意力权重计算深度自注意力神经网络的输出m;然后依次通过公式H=tanh(m)、α=softmax(lTH)、h*=mαT、o=Wh*+b、p(y∣S)=softmax(o),计算实体关系;其中,为xi四个维度的位置编码;Wq,Wk,R,Wk,E,u,v,V为深度自注意力神经网络参数,m为注意力权重线性变化的中间向量,为语义向量xi的词向量表示,为语义向量xj的词向量表示,l为softmax函数的降维超参数、W为自注意力向量h*的降维权重超参数、b为自注意力向量h*的降维偏置项超参数,p(y∣S)代表语义向量xi、xj对应的实体关系y属于类别S的概率。
3.如权利要求2所述的方法,其特征在于,用d代表位置编码方法为:k代表词格span在x中的绝对位置,若绝对位置k为偶数,则采用sin函数;若k为奇数,则采用cos函数;其中dmodel代表一条词格结构语义向量的向量维度;代表xi的相对起始位置与语义向量xj的相对起始位置的距离,代表xi的相对起始位置与语义向量xj的相对终止位置的距离,代表xi的相对终止位置与语义向量xj的相对起始位置的距离,代表xi的相对终止位置与语义向量xj的相对终止位置的距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;中国科学院信息工程研究所,未经国家计算机网络与信息安全管理中心;中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110309085.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:底盘测功机的控制系统及方法
- 下一篇:一种基于物联网的停车管理方法





