[发明专利]基于预训练模型与微调技术的医疗文本关系抽取方法有效

专利信息
申请号: 201910311691.X 申请日: 2019-04-18
公开(公告)号: CN110134772B 公开(公告)日: 2023-05-12
发明(设计)人: 陈涛;吴明芬;杨开漠 申请(专利权)人: 五邑大学
主分类号: G06F16/332 分类号: G06F16/332;G06F16/36;G06F40/284;G06N3/0464;G06N3/0442;G06N3/08;G16H10/00
代理公司: 广州市红荔专利代理有限公司 44214 代理人: 吴伟文
地址: 529020 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 训练 模型 微调 技术 医疗 文本 关系 抽取 方法
【说明书】:

发明涉及一种基于预训练模型与微调技术的医疗文本关系抽取方法,包括医疗关系抽取语料的预处理、模型预训练、微调。本发明利用预训练模型作为一维卷积神经网络模型的输入,而现有技术利用词嵌入作为一维卷积神经网络模型的输入,预训练模型比词嵌入更有利于提高医疗文本关系抽取的性能;本发明将一维卷积神经网络模型与预训练模型结合使用,并使用一维卷积神经网络来微调预训练模型,有利于提高模型的性能;通过将一维卷积神经网络的训练误差反向传播到预训练模型来实现模型微调过程,其为动态的模型训练过程;而传统的方法将词嵌入与不同层的输入相结合,仍然从头开始训练主要任务模型,并将预先训练的嵌入视为固定参数,限制了其有用性。

技术领域

本发明涉及自然语言数据分析、处理技术领域,尤其是一种医疗领域文本关系抽取方法,更具体涉及一种基于预训练模型与微调技术的医疗文本关系抽取方法。

背景技术

关于医疗的中文解释有两个:1.医治,2.疾病的治疗。中华医史几千年,而这个字眼是在近几十年才出现,是为了与国际接轨而新生的字眼。在此之前大多使用治疗,医疗也包含保健内容。

医疗数据具有巨大的价值,尤其是在医疗文本关系方面。医疗数据挖掘已经上升到国家战略,同时也是全球学术界与产业界竞争的研究热点。如何利用这些医疗数据,挖掘数据的深层价值,是未来信息科技发展的趋势,也是医疗数据分析技术产生的背景。

医疗文本中关系的抽取是指从医疗文本中抽取指定的一类事实信息,形成结构化的数据储存在数据库中,以供用户对信息的查询或进一步分析利用的过程。如一位生物医疗科学家要从海量的生物医疗文献中寻求关于某种疾病的新的治疗方案,借助于医疗文本中的药物和疾病关系的抽取是指从文本中抽取系统抽取出的蛋白质、基因或药物等的交互关系信息,就有可能从中发现有价值的治疗线索或方法。

对文本数据进行自动化关系抽取一直是人工智能、自然语言处理技术的一个重要研究及应用领域,是信息抽取的一个重要子任务。其主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据。具体的说,关系抽取主要是通过自然语言处理技术和关系抽取技术,从文本数据中自动识别出相关的实体,然后对两个相关实体间的语义关系进行分类。随着信息技术的不断发展与信息系统应用范围的不断深化,对文本数据进行自动化关系抽取是提高企业生产效率和竞争优势的一种重要手段及措施。

文本关系抽取相关的传统分析方法多采用基于模板的文本关系抽取方法和基于传统机器学习的文本关系抽取方法。其中,基于模板的文本关系抽取方法主要包括基于触发词或字符串的文本关系抽取方法和基于依存句法的文本关系抽取方法。基于触发词或字符串的文本关系抽取方法,首先需要定义触发词或字符串关系规则,然后让计算机根据该规则对给定文本进行查找,并抽取出符合要求的关系。基于依存句法的文本关系抽取方法与基于触发词或字符串的文本关系抽取方法比较类似,但此类方法通常需要先解析规则,然后利用依存分词器分析句子结构,并在依存树上匹配规则,以查找符合要求的关系组。基于模板的文本关系抽取方法因为定义的规则的人一般都是研究该领域的专家,所以该方法具有比较高的准确率,而且可以根据不同领域定义不同的规则。但是由于这些规则都是领域专家构建的,所以需要较高的人工和时间成本,同时此类方法还存在可移植性较差和召回率低等问题。

针对基于模板的文本关系抽取方法所存在的问题,研究者开始尝试利用基于传统机器学习的方法来对文本进行文本关系抽取。此类方法首先预先定义好需要抽取的关系集合和命名实体集合。然后,人工标注命名实体和实体间关系,并将标注的数据分为训练集、开发集和测试集。最后,选择和训练分类器,并利用训练好的分类器对未知语料集进行关系抽取。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于五邑大学,未经五邑大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910311691.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top