[发明专利]一种基于生物医学文献的实体关系挖掘方法有效
| 申请号: | 202010208715.1 | 申请日: | 2020-03-23 |
| 公开(公告)号: | CN111428036B | 公开(公告)日: | 2022-05-27 |
| 发明(设计)人: | 陈铭;陈琦;周银聪;胡大辉;吴文怡 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F40/279;G06F40/211;G16H15/00 |
| 代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 彭剑 |
| 地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 生物医学 文献 实体 关系 挖掘 方法 | ||
本发明公开了一种基于生物医学文献的实体关系挖掘方法,包括以下步骤:(1)在公共数据库中查询疾病相关的生物医学文献,经数据预处理后,获得生物医学文本数据;(2)结合正则匹配模版和深度学习模型,对得到的生物医学文本数据进行生物医学命名实体识别;(3)基于实体识别结果,采用迁移学习和强化学习的方法对实体关系进行挖掘。本发明通过从网络上获取疾病相关的生物医学文献,抽取出摘要和标题并进行实体识别和关系挖掘,可有效地识别出文献中的生物医学名词实体,并挖掘出各类实体之间潜藏的关系。
技术领域
本发明属于文本数据挖掘技术领域,尤其是涉及一种基于生物医学文献的实体关系挖掘方法。
背景技术
随着生物医学技术的飞速发展,目前生物医学文献的数量正在以前所未有的速度爆炸式增长。生物医学研究人员面对着海量的文献数据库,有效的信息获取已成为一项艰巨的任务。非编码RNA和蛋白质编码基因是疾病研究中的重要对象。研究成果中揭示的基因、非编码RNA、蛋白质等与疾病的潜在关系能够帮助生物学家更有效得探索生命发生、健康维系以及疾病救治的奥秘。目前大多数从生物医学文献中挖掘构建的数据库由领域专家以人工方式编纂而成。然而,面对指数型增加的文献数量,人工收集的方式存在着很大的局限性。
随着深度学习模型的发展,深度学习模型在文本数据处理领域已经有了广泛的使用,如CN110750640A的中国专利文献公开了一种基于神经网络模型的文本分类方法,包括:收集文本数据,对所述文本数据进行预处理操作,得到预处理后的文本数据;将所述预处理后的文本数据转换为文本向量;利用基于决策树优化的BP神经网络分类模型对所述文本向量进行特征选择,得到初始文本特征;根据上述得到的初始文本特征,利用随机梯度下降算法与fine-turing方法训练所述BP神经网络分类模型,直到得到最佳的文本特征;根据所述最佳的文本特征,利用分类器对所述文本数据进行分类,输出所述文本数据的分类结果。
公开号为CN109710763A的中国专利文献公开了一种文本数据的分类方法,包括:获取文本数据集;对所述文本数据集进行预处理,形成训练数据集;构建深度神经网络模型;基于所述训练数据集对所述深度神经网络模型进行训练;使用训练完成的深度神经网络模型,对待分类的文本数据进行分类识别。
近年来,深度学习模型在生物医学文本挖掘任务中取得了比较好的效果,但是深度学习方法需要巨大的训练数据集。由于构建大型的生物医学文本训练集成本非常高,限制了深度学习应用于生物医学文本挖掘的发展。因此,目前疾病相关的数据库普遍以人工收集、基于模板为主,未能充分利用深度学习模型来挖掘实体关系,严重依赖机器学习复杂的特征工程。
发明内容
为解决现有技术存在的上述问题,本发明提供了一种基于生物医学文献的实体关系挖掘方法,可有效地识别出文献中的生物医学名词实体,并挖掘出各类实体之间潜藏的关系。
一种基于生物医学文献的实体关系挖掘方法,包括以下步骤:
(1)在公共数据库中查询疾病相关的生物医学文献,经数据预处理后,获得生物医学文本数据;
(2)结合正则匹配模版和深度学习模型,对得到的生物医学文本数据进行生物医学命名实体识别;
(3)基于实体识别结果,采用迁移学习和强化学习的方法对实体关系进行挖掘。
本发明通过从网络上获取疾病相关的生物医学文献,抽取出摘要和标题并进行实体识别和关系挖掘,可有效地识别出文献中的生物医学名词实体,并挖掘出各类实体之间潜藏的关系。
步骤(1)中,所述的数据预处理具体为:
获取生物医学文献的摘要文本数据,过滤掉文本数据的网页html标签、期刊信息等,并移除过长或过短的摘要;采用Stanford CoreNLP工具包对文本进行分句,最终获得所需的高质量的生物医学文本数据。
步骤(2)的具体步骤为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010208715.1/2.html,转载请声明来源钻瓜专利网。





