[发明专利]基于分解-重组策略的医学文本实体关系联合抽取方法有效
申请号: | 202210777344.8 | 申请日: | 2022-07-04 |
公开(公告)号: | CN114841151B | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 朱强;洪铖;刘军平;王帮超;罗瑞奇 | 申请(专利权)人: | 武汉纺织大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/289;G06F40/30;G06F40/211 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 王琪 |
地址: | 430073 *** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分解 重组 策略 医学 文本 实体 关系 联合 抽取 方法 | ||
1.一种基于分解-重组策略的医学文本实体关系联合抽取方法,包括以下步骤:
步骤S1,对医学文本数据进行数据预处理操作,以获得可供模型训练的医学文本数据;
步骤S2,将经过文本预处理后得到的句子输入到编码器,获取包含句子的特征的词向量序列;
步骤S3,将包含语义信息的词向量序列输入到基于跨度的实体标记模块,用于提取文本中的头实体和尾实体,并采用两个相同的二分类器分别预测头实体和尾实体的起始和结束位置;
步骤S4,为了获取句子中实体之间存在的关系,将编码器输出的词向量输入到关系分类模块,接着对所有关系类型进行预测,从而提取出序列中所有可能存在的关系;
步骤S5,为了解决实体重叠问题,将实体标记模块中获取的每一个头实体,与关系分类模块中获取的每一种关系进行两两重组,获得所有可能成为三元组的头实体和关系组合;接着,将每个组合的头实体和关系的特征相结合,再使用Self-Attention机制获得所有尾实体的相关性特征,以匹配最相关尾实体的起始位置,从而获得该三元组中的尾实体,最终完成医学实体关系三元组的抽取工作。
2.如权利要求1所述一种基于分解-重组策略的医学文本实体关系联合抽取方法,其特征在于:步骤S1中所述预训练包括对医学文本句子进行分句与分词。
3.如权利要求1所述一种基于分解-重组策略的医学文本实体关系联合抽取方法,其特征在于:步骤S2中选择利用了大量医学文本训练的BioBERT预训练模型作为编码器,对于输入长度为
4.如权利要求1所述一种基于分解-重组策略的医学文本实体关系联合抽取方法,其特征在于:步骤S3的具体实现方式如下;
S31:将步骤2中得到的词向量序列
S32:如果概率超过阈值,则对应
其中,
S33:基于跨度实体标记模块通过以下似然函数确定实体
其中,
S34:基于跨度的实体标记模块利用以下损失函数进行训练;
其中,
S35:将提取出来的所有头实体和尾实体分别表示为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉纺织大学,未经武汉纺织大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210777344.8/1.html,转载请声明来源钻瓜专利网。