[发明专利]一种基于生物医学文献的实体关系挖掘方法有效
| 申请号: | 202010208715.1 | 申请日: | 2020-03-23 |
| 公开(公告)号: | CN111428036B | 公开(公告)日: | 2022-05-27 |
| 发明(设计)人: | 陈铭;陈琦;周银聪;胡大辉;吴文怡 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F40/279;G06F40/211;G16H15/00 |
| 代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 彭剑 |
| 地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 生物医学 文献 实体 关系 挖掘 方法 | ||
1.一种基于生物医学文献的实体关系挖掘方法,其特征在于,包括以下步骤:
(1)在公共数据库中查询疾病相关的生物医学文献,经数据预处理后,获得生物医学文本数据;
(2)结合正则匹配模版和深度学习模型,对得到的生物医学文本数据进行生物医学命名实体识别;
(3)基于实体识别结果,采用迁移学习和强化学习的方法对实体关系进行挖掘;具体步骤为:
(3-1)整合生物医学数据库中与疾病相关的关系实例作为非标准化任务创建的标记数据集,利用实体对齐的方法,构建具有丰富关系类别的实体关系训练数据集,包括基因-疾病关系数据集和非编码RNA-疾病关系数据集;
(3-2)使用单关系对抽取模型进行单关系分类任务;所述的单关系对抽取模型基于生物医学领域的BioBERT模型,通过使用实体关系训练数据集对该模型进行微调后得到;
(3-3)使用多关系对抽取模型进行多关系分类任务;所述的多关系对抽取模型采用编码器-解码器的框架,并使用强化学习辅助训练来优化三元组解码顺序;
(3-4)从公开的疾病、基因、非编码RNA的数据库中挖掘实体属性,对三元组信息对进行筛选,整合疾病-基因关系、疾病-非编码RNA关系数据,利用图数据库对数据进行存储和查询。
2.根据权利要求1所述的基于生物医学文献的实体关系挖掘方法,其特征在于,步骤(1)中,所述的数据预处理具体为:
获取生物医学文献的摘要文本数据,过滤掉文本数据的网页html标签和期刊信息,并移除过长或过短的摘要;采用Stanford CoreNLP工具包对文本进行分句,最终获得所需的生物医学文本数据。
3.根据权利要求1所述的基于生物医学文献的实体关系挖掘方法,其特征在于,步骤(2)的具体步骤为:
交叉引用现有的生物医学数据库构建非编码RNA实体词字典,设计正则匹配模板,对得到的生物医学文本数据进行非编码RNA的实体识别;
构建并训练双向LSTM-CRF神经网络模型,对得到的生物医学文本进行疾病和基因实体识别。
4.根据权利要求3所述的基于生物医学文献的实体关系挖掘方法,其特征在于,所述的双向LSTM-CRF神经网络模型包括输入层、双向LSTM层、全连接层和CRF层:
第一层是输入层,每个句子被表示成一串由向量组成的序列:X=(e1,…ei,…,en),作为模型的输入,其中e代表每个词的分布式表示,n表示句子的长度;在双向LSTM层中,将每一步前向和后向的隐向量进行拼接后输出到全连接层,得到每一步对应各个标签的概率;全连接层的结果作为发射概率输入CRF层,解码出所有可能的标签序列中的最佳标签序列。
5.根据权利要求3所述的基于生物医学文献的实体关系挖掘方法,其特征在于,所述的双向LSTM-CRF神经网络模型进行疾病和基因实体识别时的输入特征为:
单词特征,分词后的词语本身;
词性特征,词性标注器所标注的多种词性;
字符特征,包括大小写、拼写规律,模型输入端随机初始化后,通过模型训练自动学习得到;
分块特征,为词语组合。
6.根据权利要求1所述的基于生物医学文献的实体关系挖掘方法,其特征在于,步骤(3-1)中,进行实体对齐时,对于无法对齐的标注实体,使用实体字典,获得标注实体的同义词,再用同义词集合匹配句子中的词语。
7.根据权利要求1所述的基于生物医学文献的实体关系挖掘方法,其特征在于,步骤(3-3)中,使用强化学习辅助训练来优化三元组解码顺序具体为:
解码器读取编码器产生的语义向量,在生成每个三元组时,解码器首先生成关系类别,接着采用复制机制,直接从源语句中复制第一个实体,作为头实体,紧接着从源语句复制第二个实体,作为尾部实体;每三个输出为一个三元组,之后解码器生成下一个三元组的关系类别、头实体和尾实体,或者结束解码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010208715.1/1.html,转载请声明来源钻瓜专利网。





