[发明专利]基于分解-重组策略的医学文本实体关系联合抽取方法有效

申请号：	202210777344.8	申请日：	2022-07-04
公开（公告）号：	CN114841151B	公开（公告）日：	2022-11-18
发明（设计）人：	朱强;洪铖;刘军平;王帮超;罗瑞奇	申请（专利权）人：	武汉纺织大学
主分类号：	G06F40/284	分类号：	G06F40/284;G06F40/289;G06F40/30;G06F40/211
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	王琪
地址：	430073 ***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于分解重组策略医学文本实体关系联合抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于分解-重组策略的医学文本实体关系联合抽取方法，包括以下步骤：

步骤S1，对医学文本数据进行数据预处理操作，以获得可供模型训练的医学文本数据；

步骤S2，将经过文本预处理后得到的句子输入到编码器，获取包含句子的特征的词向量序列；

步骤S3，将包含语义信息的词向量序列输入到基于跨度的实体标记模块，用于提取文本中的头实体和尾实体，并采用两个相同的二分类器分别预测头实体和尾实体的起始和结束位置；

步骤S4，为了获取句子中实体之间存在的关系，将编码器输出的词向量输入到关系分类模块，接着对所有关系类型进行预测，从而提取出序列中所有可能存在的关系；

步骤S5，为了解决实体重叠问题，将实体标记模块中获取的每一个头实体，与关系分类模块中获取的每一种关系进行两两重组，获得所有可能成为三元组的头实体和关系组合；接着，将每个组合的头实体和关系的特征相结合，再使用Self-Attention机制获得所有尾实体的相关性特征，以匹配最相关尾实体的起始位置，从而获得该三元组中的尾实体，最终完成医学实体关系三元组的抽取工作。

2.如权利要求1所述一种基于分解-重组策略的医学文本实体关系联合抽取方法，其特征在于：步骤S1中所述预训练包括对医学文本句子进行分句与分词。

3.如权利要求1所述一种基于分解-重组策略的医学文本实体关系联合抽取方法，其特征在于：步骤S2中选择利用了大量医学文本训练的BioBERT预训练模型作为编码器，对于输入长度为n的句子，经过编码器后得到包含语义信息的词向量序列X:{x₁,x₂,…,x_n}。

4.如权利要求1所述一种基于分解-重组策略的医学文本实体关系联合抽取方法，其特征在于：步骤S3的具体实现方式如下；

S31：将步骤2中得到的词向量序列X输入到实体标记模块，用于提取文本中的头实体和尾实体，对于输入词向量序列X中第i个位置的表示x_i，利用一个二分类器预测x_i为实体起始位置和结束位置的概率；

S32：如果概率超过阈值，则对应x_i将会被标记1，否则将被标记为0；采用两个相同的二分类器分别预测头实体和尾实体的起始和结束位置，具体公式表示为：

其中，p_i^start和p_i^end分别表示x_i为实体起始位置和结束位置的概率，W_start和W_end为可训练的权重，b_start和b_end为偏差，激活函数为sigmoid函数；

S33：基于跨度实体标记模块通过以下似然函数确定实体e的跨度，实体e表示头实体或尾实体；

其中，n表示输入词向量序列的长度，start和end分别表示实体的开始位置和结束位置，y_i^t是x_i为起始位置或结束位置的标记，即实体的开始位置和结束位置的真实值，开始位置和结束位置用1标记，其他位置用0标记；θ={W_start，b_start，W_end，b_end}表示可训练权重和偏差的集合，t的值可取start或end，当取值为start时，表示预测当前实体的起始位置；当取值为end时，表示预测当前实体的结束位置；当y_i^t=1时，I{y_i^t=1}的值为1，否则为0；当y_i^t=0时，I{y_i^t=0}的值为1，否则为0；

S34：基于跨度的实体标记模块利用以下损失函数进行训练；

其中，n表示输入词向量序列的长度，θ={W_start，b_start，W_end，b_end}表示可训练权重和偏差的集合，X为输入序列，p_θ(e|x)为实体e的跨度；

S35：将提取出来的所有头实体和尾实体分别表示为M_sub和M_obj。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉纺织大学，未经武汉纺织大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210777344.8/1.html，转载请声明来源钻瓜专利网。

上一篇：一种心电信号监测装置和可穿戴设备
下一篇：变速机组吸出高度确定方法和装置、电子设备和存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于分解-重组策略的医学文本实体关系联合抽取方法有效

专利文献下载