[发明专利]一种利用实体判别信息来提高生物医学命名体识别的方法在审
| 申请号: | 202210513350.2 | 申请日: | 2022-05-11 |
| 公开(公告)号: | CN114925694A | 公开(公告)日: | 2022-08-19 |
| 发明(设计)人: | 陈毅东;张国成;钟恩俊;史晓东 | 申请(专利权)人: | 厦门大学 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06K9/62;G06N3/04 |
| 代理公司: | 厦门南强之路专利事务所(普通合伙) 35200 | 代理人: | 马应森 |
| 地址: | 361005 福建*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 利用 实体 判别 信息 提高 生物医学 命名 识别 方法 | ||
一种利用实体判别信息来提高生物医学命名体识别的方法,涉及生物医学命名体识别。包括以下步骤:1)构建EJNER模型,将EJ任务和NER任务结合的方法,称之为EJNER;EJNER模型包括EJ模型、NER模型和特征融合模块;2)定义EJ任务并训练EJ模型;3)将EJ模型提取的特征和NER模型提取的特征通过相加、门控单元、多头注意力机制方法融合,利用融合后的特征进行预测。可缓解实体边界错误分类问题。不仅仅适用于BioNER任务,同样适用于一般的命名体识别任务。
技术领域
本发明涉及生物医学命名体识别,尤其是涉及一种利用实体判别信息来提高生物医学命名体识别的方法。
背景技术
随着生物医学文本的数量迅速增加,大规模的生物医学文本挖掘成为一项必不可少的任务,用来帮助研究人员专注于相关文档中的有用信息。在生物医学文本挖掘领域中,生物医学命名体识别(Biomedical Named Entity Recognition,BioNER)是重要的子任务之一,通过BioNER模型识别出类似疾病、基因、蛋白质等在给定文本中出现的实体,然后将模型识别出的实体用于下游的任务和应用。
近年来,深度学习方法在自然语言处理(Natural Language Processing,NLP)领域取得了重大进展,因此,目前对BioNER的研究主要集中在基于深度学习的方法上。随着大规模的预训练语言模型的提出,比如基于转换器的双向编码特征(Bidirectional EncoderRepresentations from Transformers,BERT),其在多个NLP基准任务上取得了巨大的效果提升,这证明预训练语言模型和深度学习方法的有效性。
尽管一些基于深度学习的研究工作在BioNER中取得重大进展,但在这些研究工作中,普遍存在实体边界错误分类的问题。
表1实体边界错误分类案例分析
如表1所示,第一行是实际的参考,第二行是当前在BioNER任务上效果最好的BioBERT模型预测的结果,“B”表示一个实体预测的开始,在其后第一个预测的“O”表示实体预测的结束。可以看到,实体“autosomal dominant condition”包含三个单词,但是BioBERT仅仅预测两个词,缺少最后一个单词“condition”,这是比较典型的实体边界错误分类。
发明人研究发现,利用BioBERT模型仅仅判断给定文本中的一个单词是否是实体,即实体判断(Entity Judgement,EJ)任务,遇到上述实体边界错误分类的情况较少。具体来说,通过分析BioBERT模型在NCBI-disease数据集上的预测结果,发现在BioNER任务中有64个实体边界错误分类,而在EJ任务中只有38个实体边界错误分类,这一结果表明,EJ模型相比较BioNER模型遇到实体边界问题更少;此外,人类在标注NER数据时,会先判断一个单词是否是实体,然后为其选择一个类型。但目前并没有研究工作尝试将EJ和BioNER两个任务结合起来。
发明内容
本发明的目的在于根据上述在NCBI-disease数据集上的统计分析以及人类标注NER数据时的行为,针对目前的研究工作在BioNER任务上存在实体边界分类错误的问题,提供一种利用实体判别信息来提高生物医学命名体识别的方法。本发明将EJ任务和NER任务结合的方法,称之为EJNER。通过将EJ模型提取的特征和NER模型提取的特征进行融合,然后利用融合后的特征进行预测。
本发明包括以下步骤:
1)构建EJNER模型,包括EJ模型、NER模型和特征融合模块;
2)定义EJ任务并训练EJ模型;
3)将EJ模型提取的特征和NER模型提取的特征融合,利用融合后的特征进行预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210513350.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:熔盐储热换热性能试验平台及试验方法
- 下一篇:一种旅游景区环境质量检测装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





