[发明专利]一种利用实体判别信息来提高生物医学命名体识别的方法在审

专利信息
申请号: 202210513350.2 申请日: 2022-05-11
公开(公告)号: CN114925694A 公开(公告)日: 2022-08-19
发明(设计)人: 陈毅东;张国成;钟恩俊;史晓东 申请(专利权)人: 厦门大学
主分类号: G06F40/295 分类号: G06F40/295;G06K9/62;G06N3/04
代理公司: 厦门南强之路专利事务所(普通合伙) 35200 代理人: 马应森
地址: 361005 福建*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 利用 实体 判别 信息 提高 生物医学 命名 识别 方法
【说明书】:

一种利用实体判别信息来提高生物医学命名体识别的方法,涉及生物医学命名体识别。包括以下步骤:1)构建EJNER模型,将EJ任务和NER任务结合的方法,称之为EJNER;EJNER模型包括EJ模型、NER模型和特征融合模块;2)定义EJ任务并训练EJ模型;3)将EJ模型提取的特征和NER模型提取的特征通过相加、门控单元、多头注意力机制方法融合,利用融合后的特征进行预测。可缓解实体边界错误分类问题。不仅仅适用于BioNER任务,同样适用于一般的命名体识别任务。

技术领域

发明涉及生物医学命名体识别,尤其是涉及一种利用实体判别信息来提高生物医学命名体识别的方法。

背景技术

随着生物医学文本的数量迅速增加,大规模的生物医学文本挖掘成为一项必不可少的任务,用来帮助研究人员专注于相关文档中的有用信息。在生物医学文本挖掘领域中,生物医学命名体识别(Biomedical Named Entity Recognition,BioNER)是重要的子任务之一,通过BioNER模型识别出类似疾病、基因、蛋白质等在给定文本中出现的实体,然后将模型识别出的实体用于下游的任务和应用。

近年来,深度学习方法在自然语言处理(Natural Language Processing,NLP)领域取得了重大进展,因此,目前对BioNER的研究主要集中在基于深度学习的方法上。随着大规模的预训练语言模型的提出,比如基于转换器的双向编码特征(Bidirectional EncoderRepresentations from Transformers,BERT),其在多个NLP基准任务上取得了巨大的效果提升,这证明预训练语言模型和深度学习方法的有效性。

尽管一些基于深度学习的研究工作在BioNER中取得重大进展,但在这些研究工作中,普遍存在实体边界错误分类的问题。

表1实体边界错误分类案例分析

如表1所示,第一行是实际的参考,第二行是当前在BioNER任务上效果最好的BioBERT模型预测的结果,“B”表示一个实体预测的开始,在其后第一个预测的“O”表示实体预测的结束。可以看到,实体“autosomal dominant condition”包含三个单词,但是BioBERT仅仅预测两个词,缺少最后一个单词“condition”,这是比较典型的实体边界错误分类。

发明人研究发现,利用BioBERT模型仅仅判断给定文本中的一个单词是否是实体,即实体判断(Entity Judgement,EJ)任务,遇到上述实体边界错误分类的情况较少。具体来说,通过分析BioBERT模型在NCBI-disease数据集上的预测结果,发现在BioNER任务中有64个实体边界错误分类,而在EJ任务中只有38个实体边界错误分类,这一结果表明,EJ模型相比较BioNER模型遇到实体边界问题更少;此外,人类在标注NER数据时,会先判断一个单词是否是实体,然后为其选择一个类型。但目前并没有研究工作尝试将EJ和BioNER两个任务结合起来。

发明内容

本发明的目的在于根据上述在NCBI-disease数据集上的统计分析以及人类标注NER数据时的行为,针对目前的研究工作在BioNER任务上存在实体边界分类错误的问题,提供一种利用实体判别信息来提高生物医学命名体识别的方法。本发明将EJ任务和NER任务结合的方法,称之为EJNER。通过将EJ模型提取的特征和NER模型提取的特征进行融合,然后利用融合后的特征进行预测。

本发明包括以下步骤:

1)构建EJNER模型,包括EJ模型、NER模型和特征融合模块;

2)定义EJ任务并训练EJ模型;

3)将EJ模型提取的特征和NER模型提取的特征融合,利用融合后的特征进行预测。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210513350.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top