[发明专利]一种融合触发词识别特征的实体关系抽取方法有效
申请号: | 202010212651.2 | 申请日: | 2020-03-24 |
公开(公告)号: | CN111428505B | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 辛欣;王艳 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/284;G06F16/35;G06K9/62 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 王民盛 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 触发 识别 特征 实体 关系 抽取 方法 | ||
1.一种融合触发词识别特征的实体关系抽取方法,其特征在于:包括识别句子中触发词和实体关系抽取,具体包括以下步骤:
步骤1:提取句子中触发词的特征;
步骤1.1:对数据集中的句子标注触发词,输出标注触发词后的数据集;
其中,数据集包括训练集和测试集;
步骤1.1具体包括以下子步骤:
步骤1.1.1:对数据集中含有触发词的句子,使用大括号标注触发词,用于记录触发词在句子中的位置;
步骤1.1.2:对于数据集中不含有触发词的句子,打上omit标记;步骤1.2:从步骤1.1输出的数据集的训练集中选取一个训练样本(Sh,lh),对句子Sh进行分类再计算该句子的标签向量v;
其中,Sh和lh分别表示训练集中第h个样本中的句子和句子对应的实体关系类型标签;
步骤1.2具有包括以下子步骤:
步骤1.2.1:对句子Sh进行分类;根据句子Sh中两个实体之间的相对位置,通过公式(1)得到句子类型t:
其中,表示实体1在句子Sh中的起始位置,表示实体1在句子Sh中的结束位置;表示实体2在句子Sh中的起始位置,表示实体2在句子Sh中的结束位置;
步骤1.2.2:通过公式(2)得到句子Sh的标签向量v:
其中,x是句子Sh去掉标注触发词的大括号和omit标签后的句子,形式上为文字的序列,即x=[x1,x2,...,xM],xi表示x中第i个文字,i的取值范围为1到M,M是句子x的长度;one_hot(·)是嵌入函数,实体xi对应的vi为1,其他字xj对应的vj为0,触发词在句子x中的位置i对应的vi为1;t是经步骤2.1计算输出的句子类型;符号代表的是向量的拼接;
步骤1.3:计算带有实体位置信息的字向量,具体为:将句子x中的字转化为字向量,计算实体在句子x中的相对位置,将实体相对位置转换为位置向量,最后计算带有实体位置信息的字向量,具体包括以下子步骤:
步骤1.3.1:对句子x中的每个字通过公式(3)的嵌入函数转化为其字向量:
ei=embed(xi) (3)
其中,embed(·)是嵌入函数,对于输入的每一个字xi,查找得到对应的字向量ei;
步骤1.3.2:通过公式(4)计算实体k相对于句子x中第i个字的相对位置用来标记是实体k在句子x中的位置:
其中,表示实体k在句子x中的开始位置,表示实体k在句子x中的结束位置,k的取值范围为[1,2],分别代表句子x中的实体1和实体2;i的取值范围为1到M,M是句子x的长度;
步骤1.3.3:并通过公式(5)的嵌入函数将实体k相对于句子x中第i个字的相对位置转化为其位置向量
其中,是经步骤1.3.2计算得到的实体相对于句子x中第i个字的相对位置;i的取值范围为1到M,M是句子x的长度;
步骤1.3.4:通过公式(6)将经步骤1.3.1转化输出的句子x中第i个字的字向量ei与经步骤1.3.3转化输出的实体k相对于句子x第i个字的位置向量拼接得到带有实体位置信息的字向量
步骤1.4:将经步骤1.3.4拼接得到的字向量作为模型的输入,输入到机器学习模型中进行特征提取得到高阶特征向量
步骤1.5:计算实体的向量表示并根据该向量表示计算句子x的句子类型的向量表示;
步骤1.5具体包括以下子步骤:
步骤1.5.1:通过公式(7)从经步骤1.4输出的高阶特征向量e*中计算实体k的向量表示entity_embk:
其中,k取值为1和2,分别代表一个句子x中的实体1和实体2,表示实体k在句子x中的开始位置,表示实体k在句子x中的结束位置,dh表示向量的维度,i表示向量e*第i个位置;
步骤1.5.2:通过公式(8)计算句子x的句子类型的向量表示te:
te=Relu(WT(concat(entity_embk))+b) (8)
其中,dh表示向量的维度,concat(·)函数表示两个向量表示的拼接;Relu(·)函数是线性整流函数;是可被训练的参数,b是一个偏置向量;T表示向量转置;
步骤1.6:通过公式(9),拼接经步骤1.4输出的高阶特征向量e*和经步骤1.5.2输出的句子类型向量表示te得到特征向量用于识别句子中的触发词和实体关系分类:
其中,concat(·)函数表示两个向量的拼接,初始化取值全为0,dh表示向量的维度;
步骤1.7:使用注意力机制捕捉句子中触发词的特征;通过公式(10)对经步骤1.6输出的向量e#使用注意力机制计算得到其权重向量α:
α=softmax(WTtanh(e#)) (10)
其中,tanh(·)是双曲正切函数,是可被训练的参数,softmax(·)函数将多个神经元的输出映射到(0,1)区间内,权重向量是注意力机制计算得到句子中触发词的特征;
步骤2:提取句子中用于实体关系抽取的特征;
步骤2的具体子步骤如下:
步骤2.1:通过公式(11)将经步骤1.6输出的字级别向量e#与经步骤1.7输出的权重向量α的转置做运算,输出句子级别的向量
其中,dh是向量的维度,T是向量转置;
步骤2.2:对经步骤2.1输出的句子级别的向量通过公式(12)映射到实体关系空间并得到用于实体关系分类的向量o;
o=WYe+b (12)
其中,是一个转移矩阵,将映射到实体关系空间,Y表示实体关系类型的总数,dh是向量的维度,b是一个偏置向量,向量o是句子中用于实体关系抽取的特征;
步骤3:融合识别句子中触发词的模型与实体关系抽取的模型;
步骤3.1:采用相对熵衡量经步骤1.2.2输出的句子标签向量v与经步骤1.7输出的权重向量α之间的分布差异性,具体子步骤如下:
步骤3.1.1:通过公式(13)计算句子标签向量v的概率分布αv:
αv=softmax(v) (13)
其中,v经过softmax(·)函数将值映射到(0,1)区间;
步骤3.1.2:通过公式(14)计算经步骤3.1.1输出的概率分布αv与经步骤1.7输出的权重向量α之间的相对熵作为识别句子中触发词的模型的目标函数;
其中,H是训练集中样本的总数;h表示第h个训练样本,θ是模型中可被训练的参数;
步骤3.2:采用交叉熵衡量真实概率与实体关系类型预测概率的之间分布的差异性;
其中,真实概率是指句子对应实体关系标签lh的概率为1;
步骤3.2,具体为:
步骤3.2.1:通过公式(15)对经步骤2.2输出的用于实体关系分类的向量o计算得到实体关系类型的预测概率p(lh|Sh):
p(lh|Sh)=softmax(o) (15)
其中,Sh和lh分别表示训练集中第h个样本中的句子和句子对应的实体关系类型标签;
步骤3.2.2:通过公式(16)计算真实概率与经步骤3.2.1输出的每种实体关系类型的预测概率p(lh|Sh)之间的交叉熵作为实体关系抽取模型的目标函数:
其中,H表示训练样本的总数,h表示第h个训练样本,θ是模型中可被训练的参数;
步骤3.3:将经步骤3.2.2计算的交叉熵J(θ)与经步骤3.1.2计算的相对熵D(αv||α,θ)相加得到融合识别句子中触发词的模型与实体关系抽取的模型的目标函数J*(θ);
步骤3.3中通过公式(17)得到融合识别句子中触发词的模型与实体关系抽取的模型的目标函数J*(θ):
J*(θ)=J(θ)+D(αv||α,θ) (17);
步骤3.4:使用随机梯度下降方法对步骤3.3的目标函数进行优化,对训练集中的所有训练样本进行N次迭代训练,输出被训练好的融合触发词识别特征的实体关系抽取模型;
步骤4:使用步骤3.4输出的实体关系抽取模型识别句子中两个实体之间的关系;任意输入一句标注好两个实体的句子到被训练好的关系抽取模型,输出两个实体间的语义关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010212651.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电连接器
- 下一篇:一种利用附加阻尼抑制电网低频振荡的方法、装置及系统