[发明专利]一种生物医学命名实体识别的方法和系统有效
| 申请号: | 202011519249.5 | 申请日: | 2020-12-21 |
| 公开(公告)号: | CN112541356B | 公开(公告)日: | 2022-12-06 |
| 发明(设计)人: | 徐卫志;范胜玉;曹洋;于惠 | 申请(专利权)人: | 山东师范大学 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/08;G06N3/04 |
| 代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李圣梅 |
| 地址: | 250014 山*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 生物医学 命名 实体 识别 方法 系统 | ||
本公开提供了一种生物医学命名实体识别的方法和系统,包括:对于字符、词利用注意力机制进行特征采样分别得到单词嵌入的拓展,然后使用最大池化层来提取单词嵌入;采用注意机制将不同层次的单词嵌入进行融合,得到多层次的单词嵌入;将所述多层次的单词嵌入输入命名实体识别神经网络模型中进行训练,获得训练好的命名实体识别神经网络模型;将待识别的生物医学命名实体输入训练好的命名实体识别神经网络模型,得到实体识别结果。
技术领域
本公开属于自然语言处理和深度学习的技术领域,具体涉及一种生物医学命名实体识别的方法和系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
自然语言处理(NLP)是人工智能和语言学领域的一个分支学科,是人工智能中最为困难的问题之一。NLP是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。它对计算机和人类的交互方式有许多重要的影响。其基本任务有语音识别、信息检索、问答系统,机器翻译等等,像循环神经网络、朴素贝叶斯就是NLP经常用到的模型。自然语言处理的语言处理一词是指能够处理口语和书面语的计算机技术。使用相关技术,能将海量的数据进行高效快捷的检索和存储。随着深度学习技术在众多领域的发展,自然语言处理也有了很大突破。
注意力机制(Attention Mechanism)是近年来在自然语言处理领域中提升任务性能的重要工具。通过句子内部的嵌入向量进行多次乘法计算再进行注意力分数计算,最后对句子的词嵌入向量的各维度数值依据注意力分数进行加权,最后得到经过注意力计算的词嵌入向量。在命名实体识别领域中使用注意力机制对句子中的词嵌入信息进行注意力探索已经成为一种成熟的技术。
命名实体识别(Named Entity Recognition,NER),是NLP领域中的基础任务,也是问答系统、机器翻译、句法分析等多数NLP任务的重要基础工具。以前的方法主要是基于词典和基于规则的。基于词典的方法是通过字符串模糊查找或者完全匹配的方法,但是随着新的实体名称不断涌现,词典的质量与大小有局限性;基于规则的方法是通过实体名成自身的特征和短语的常见搭配,来人为的指定一些规则,扩充规则集合,但是需要耗费巨大的人力资源和时间成本,规则一般只在某个特定的领域内有效,进行人工迁移的代价高,且规则移植性不强。进行命名实体识别,多采用机器学习的方法,通过不断地优化模型训练,是训练的模型在测试评估时表现出较好的性能。目前应用较多的模型有隐马尔可夫模型(Hidden Markov Model,HMM)、支持向量机(Support Vector Machine,SVM)、最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)、条件随机场(Conditional RandomField,CRF)等。条件随机场模型能对邻近标签对预测序列的影响问题进行有效地处理,所以在实体识别中应用较多,且效果不错。目前,针对序列标注问题,一般采用深度学习算法。与传统算法相比,深度学习算法去掉了手工提取特征这一步,能有效的提取判别特征。
近年来,随着互联网的高速运转,信息也有了各式各样的存储形式。在生物医学领域,文献资源每年都在数以千倍的增加,这些信息的构成多以非结构化文本的形式存储,生物医学命名实体识别的任务是将非结构化文本转为结构化文本,将生物医学文本中的特定实体名称如基因、蛋白质、疾病等进行识别和分类。目前,从庞大的数据中如何快速高效的检索相关信息是一项巨大的挑战。
发明内容
本公开为了解决上述问题,提出了一种生物医学命名实体识别的方法和系统,本公开主要分为两个部分,即多层次的注意力嵌入向量计算和交叉注意力融合;多层次注意力嵌入向量计算主要有,基于字符的局部注意力计算、基于字符的全局注意力计算以及基于词的局部注意力计算。
根据一些实施例,本公开采用如下技术方案:
第一方面,本公开提供了一种生物医学命名实体识别的方法;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011519249.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:果实分割识别方法及系统、果实采摘机器人
- 下一篇:一种车辆再识别方法及系统





