[发明专利]基于多头注意力机制的中医医案命名实体识别方法及系统在审
| 申请号: | 202010896923.5 | 申请日: | 2020-08-31 |
| 公开(公告)号: | CN112115719A | 公开(公告)日: | 2020-12-22 |
| 发明(设计)人: | 袁锋;于凤洋;郑向伟;虞凤萍;徐传杰;刘悦;王冰 | 申请(专利权)人: | 山东师范大学 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06N3/04 |
| 代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 祖之强 |
| 地址: | 250014 *** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 多头 注意力 机制 中医 医案 命名 实体 识别 方法 系统 | ||
本公开提供了一种基于多头注意力机制的中医医案命名实体识别方法,包括以下步骤:获取中医医案的文本数据;将获取的文本数据中的字符向量和单词向量结合后送入到Bi‑GRU神经网络中,进行特征提取,得到全局特征;利用多头注意力机制,为字符向量提供潜在的语义信息,提取局部特征;将全局特征和局部特征输入到条件随机场层,得到文本数据的命名实体序列标注结果;本公开无需分词操作,通过对字符和单词的特征进行结合形成一种联合特征,使用超参数对字符和单词的权重进行控制,将联合特征输入到嵌入层,并且在Bi‑GRU层添加空间关注,弥补了其在提取有效特征中的不足,极大的提高了实体识别的准确率。
技术领域
本公开涉及文本数据处理技术领域,特别涉及一种基于多头注意力机制的中医医案命名实体识别方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术,并不必然构成现有技术。
随着中医信息化的迅速发展,中医在各大医院中的应用也越来越普及。不同于其他医种,中医中最重要的是中医医案。中医医案是历代医家临床实践经验及学术思想的载体,作为历代中医医家临床诊疗经验的记录,蕴藏着历代医家的医学思想和辨证论治经验,承载着中医知识体系的传承与发展。中医医案记录患者所患疾病、症状和体征以及治疗方法等一系列与患者自身健康状况密切相关的重要信息,这些信息是中医中重要的经验和方法,如何利用中医医案挖掘有用信息是中医发展中重要一环。中医医案中文本是非结构化数据并且缺乏统一的表述标准,这是影响中医医案二次利用的一个主要原因。准确地识别非结构化中医医案文本中的实体可以为患者的诊断和治疗提供有效的决策支持。为了达到这个目的,中医医案文本命名实体识别任务用于自动识别在中医医案文本中表达独立含义的各种命名实体,此任务包含确定实体边界和确定实体类型的工作。
通过使用计算机技术以非结构化形式理解中医医案文本信息,使用基于深度学习的方法设计最新的命名实体识别模型。例如,有研究人员在使用字符和词结合的基础上使用注意力机制对中国电子病历进行命名实体识别研究,有研究人员在BLSTM-CRF中集成语言模型和读取控制门,用于生物医学命名实体识别研究。中文文本与英语文本相比存在自然词段分割缺点,错误的中文词段分割将导致错误的下游工作,与处理英文文本不同,大多数使用词级信息的模型必须面对正确的中文文本分割的问题。中文错误的单词细分结果将导致错误的命名实体识别结果。此外,基于字符的模型无法充分利用潜在的单词和单词序列信息。因此,需要多粒度信息来改善基于字符的模型的性能。
本公开发明人发现,基于机器学习的传统方法包括分类方法和序列标记方法。序列标记方法可以共同考虑相邻单词的标注结果,因此得到了更多的关注。例如,有研究人员基于特征模板集应用条件随机场对中医病历进行命名实体识别研究,有研究人员使用半马尔可夫模型对英语EMR中的命名实体进行序列化和注释存储。此外,还可以使用最大熵模型、支持向量机(SVM)和其他主流方法。但是,上述方法需要详细且复杂的手动功能,并且很容易受到稀疏数据的影响。
发明内容
为了解决现有技术的不足,本公开提供了一种基于多头注意力机制的中医医案命名实体识别方法及系统,无需分词操作,通过对字符和单词的特征进行结合形成一种联合特征,使用超参数对字符和单词的权重进行控制,将联合特征输入到嵌入层,并且在Bi-GRU层添加空间关注,弥补了其在提取有效特征中的不足,极大的提高了实体识别的准确率。
为了实现上述目的,本公开采用如下技术方案:
本公开第一方面提供了一种基于多头注意力机制的中医医案命名实体识别方法。
一种基于多头注意力机制的中医医案命名实体识别方法,包括以下步骤:
获取中医医案的文本数据;
将获取的文本数据中的字符向量和单词向量结合后送入到Bi-GRU神经网络中,进行特征提取,得到全局特征;
利用多头注意力机制,为字符向量提供潜在的语义信息,提取局部特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010896923.5/2.html,转载请声明来源钻瓜专利网。





