[发明专利]一种基于深度学习的生物医学实体识别方法在审
| 申请号: | 202010343664.3 | 申请日: | 2020-04-27 |
| 公开(公告)号: | CN111581974A | 公开(公告)日: | 2020-08-25 |
| 发明(设计)人: | 李雪威;张炜伦;喻梅;徐天一;刘志强;高洁;贺飞 | 申请(专利权)人: | 天津大学 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04 |
| 代理公司: | 天津市三利专利商标代理有限公司 12107 | 代理人: | 韩新城 |
| 地址: | 300072*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 学习 生物医学 实体 识别 方法 | ||
本发明公开一种基于深度学习的生物医学实体识别方法,包括步骤:使用词嵌入将输入序列向量化表示,以及通过CNN模型获取字符特征向量;将词嵌入向量以及通过CNN模型所获取的字符特征向量作为HDL‑ATT模型的输入向量;利用双向长短时记忆模型BLSTM分别从序列的两侧同时对序列进行处理,对上下文信息建模,捕捉输入向量实体关系的文本序列中的句子级别的特征;同时利用自注意力机制层引入篇章信息,捕捉与目标领域的实体识别有密切联系的文本片段信息;将通过自注意力机制层所得到的文本表示作为CRF层的输入,CRF层根据自注意力层的输入特征为序列的实体进行分类,得到序列输出。本发明具有很强的鲁棒性和优越性。
技术领域
本发明涉及深度学习技术领域,特别是涉及一种基于深度学习的生物医学实体识别方法。
背景技术
随着生物技术的迅速发展和人类健康医疗不断重视,生物医学领域的研究得以迅速发展,相关文献也呈井喷式地快速增长,依据文献了解前人的研究进展和进行必要的学术交流是提升研究水平,推进研究进展的必需途径,仅依据专业研究人员个体的能力是难以从海量的文献中进行学习的,因此发展生物医学文本挖掘显得十分必要,而相关的文本实体识别是生物医学文本挖掘技术的基石和重要的一步。
深度学习以其强大的计算能力,自动特征表示能力和类似人脑结构的学习能力迅速发展。神经网络可以更好地挖掘文本的语义信息,基于神经网络的深度学习关系提取方法可以自动学习实体关系的有效特征,并且无需手动定义特征模板,因此,基于深度学习的实体识别方法在命名实体识别任务中较传统方法往往具有更好的性能。
生物医学实体名识别与实体相互作用关系抽取两个任务是最近几年的研究热点,相关的研究已经取得了一定进展,但也存在一些问题。
发明内容
本发明的目的是针对现有技术中存在的技术缺陷,而提供一种基于深度学习的生物医学实体识别方法。
为实现本发明的目的所采用的技术方案是:
一种基于深度学习的生物医学实体识别方法,包括步骤:
使用词嵌入将输入序列向量化表示,以及通过CNN模型获取字符特征向量;
将词嵌入向量以及通过CNN模型所获取的字符特征向量作为HDL-ATT模型的输入向量;
利用双向长短时记忆模型BLSTM分别从序列的两侧同时对序列进行处理,对上下文信息建模,捕捉输入向量实体关系的文本序列中的句子级别的特征;同时利用自注意力机制层引入篇章信息,捕捉与目标领域的实体识别有密切联系的文本片段信息;
将通过自注意力机制层所得到的文本表示作为CRF层的输入,CRF层根据自注意力层的输入特征为序列的实体进行分类,得到最终的序列输出。
其中,所述自注意力机制层的表示向量由基于上下文的词语表示和基于上下文的词性表示组成。
其中,所述通过CNN模型获取字符特征向量的方法如下:首先收集字符集合,字符集采用随机排序方法行排列,构成基于字符的查找表,根据查找表CNN模型获得基于字符向量的特征向量表示。
本发明结合应用BLSTM网络和CRF模型,同时加入ATT自注意力机制构建了一个HDL-ATT混合模型。这个模型不需要手动地建立复杂的特征,应用词向量和基于字符的特征向量作为输入向量,经过BLSTM对输入序列向量进处理,输出的向量值利用ATT进行加权赋值再加载到CRF模型中,得到基于实体识别的分类结果。
利用DDIExtraction 2011和DDIExtraction 2013评价模型,验表明这个模型在药名识别上,其性能和其他研究模型的性能具有一定的优势。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010343664.3/2.html,转载请声明来源钻瓜专利网。





