[发明专利]一种基于深度学习的药物关系抽取方法有效
申请号: | 202010811218.0 | 申请日: | 2020-08-13 |
公开(公告)号: | CN111949792B | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 刘勇国;何家欢;杨尚明;李巧勤 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/211;G06K9/62;G16C20/50 |
代理公司: | 北京正华智诚专利代理事务所(普通合伙) 11870 | 代理人: | 李林合 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 药物 关系 抽取 方法 | ||
本发明公开了一种基于深度学习的药物关系抽取方法,本发明利用RDKit工具,将药物分子式转换为分子图结构,再将药物分子的特征进行了表达,同时提取样本的文本特征,将药物分子特征和样本的文本特征进行了结合后,再利用全连接层softmax对药物关系进行分类,采用了句子中药物的理化性质,可以提高抽取准确率,解决现有方法难以覆盖所有文本场景且过分依赖外部自然语言处理工具的问题。
技术领域
本发明涉及药物化学实体关系抽取领域,具体涉及一种基于深度学习的药物关系抽取方法。
背景技术
药物化学实体关系抽取是指从文本中自动提取药物实体之间的关系,能够辅助药物研究人员进行新药研发,辅助医生为病人制定合理的治疗方案,也是构建药物化学知识数据库的基础。现有药化实体相互作用关系抽取方法主要有两类:基于规则的方法和基于有监督机器学习的方法。
研究早期大多采用基于规则的方法,因为早期的药物关系提取缺少权威的已标注语料库。该类方法中表达作用关系的语句结构是固定有限的,即大多数的具有作用关系描述的句子之间具有相同或者相似的语句结构。该类方法对语句进行语法分析,检测语句的语法结构,根据药剂师制定的描述规则,从短句中抽取相互作用的药对,并进行药物对关系的分类。
自DDIExtraction2011与DDIExtraction2013评测开始,基于有监督机器学习方法被用于药化实体相互作用关系抽取,其中最主要的是基于特征的方法,这类方法将关系抽取看作一个分类问题,用各种不同类型的特征显式地将候选关系实例表示成一个特征向量,然后使用有监督的机器学习模型将候选关系实例分类。
基于规则的方法只对简单短句具有较好的抽取效果,因为对复杂的长句难以制定合适的规则。然而药化领域文献的句子却又多为复杂长句,其中很多描叙句子都包含两个以上的药物,而且句子中包含大量同位语、并列结构等复杂结构。所以在当前大量数据的情况下,基于规则的方法准确率较低。制定规则耗时耗力且需要专业领域人员参与;此外,人工编制的规则很难覆盖所有的应用文本场景。基于有监督机器学习的方法具有较好的性能与可移植性,但这类方法依赖于外部的自然语言处理工具,如果外部工具出错会造成错误传播,影响性能。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于深度学习的药物关系抽取方法解决了现有方法难以覆盖所有文本场景且过分依赖外部自然语言处理工具的问题。
为了达到上述发明目的,本发明采用的技术方案为:
提供一种基于深度学习的药物关系抽取方法,其包括以下步骤:
S1、获取与药物相关的文献,将文献的文本内容以句子为基本单位分句,将每一句作为一个初始样本;
S2、保留包含两个及以上药物名词的初始样本,并对保留的样本进行标注,得到标注样本;
S3、在标注样本中根据词与药物的位置关系,为每个词增加一个相对药物的位置属性,得到与每个词对应的位置特征向量;
S4、获取并将所有药物分子SMILES表达式转换为图结构,获取图结构中每个药物的药物分子特征向量;
S5、将文本中的单词表示为向量,采用向量代替对应的单词,进而将每个句子向量化;
S6、将向量化的句子输入深度学习网络,得到该句子对应的文本特征向量;
S7、将每个句子对应的文本特征向量和药物分子特征向量进行串联,得到与每个句子相对应的整体特征向量;
S8、将与每个句子相对应的整体特征向量输入全连接层,得到非线性表示的向量;
S9、采用softmax函数对非线性表示的向量进行分类,得到每个分类的概率,将概率最高的类作为识别得到的药对关系,完成药物关系抽取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010811218.0/2.html,转载请声明来源钻瓜专利网。