[发明专利]中医药古籍命名实体识别方法、装置、电子设备及存储器在审
申请号: | 202210928069.5 | 申请日: | 2022-08-03 |
公开(公告)号: | CN115310446A | 公开(公告)日: | 2022-11-08 |
发明(设计)人: | 晏峻峰;沈蓉蓉 | 申请(专利权)人: | 湖南中医药大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 长沙国科天河知识产权代理有限公司 43225 | 代理人: | 唐品利 |
地址: | 410000 湖南省长*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中医药 古籍 命名 实体 识别 方法 装置 电子设备 存储器 | ||
本申请涉及信息处理与中医文献技术领域的一种中医药古籍名实体识别方法、装置、电子设备和存储介质。所述方法包括:获取中医药古籍文本,并对中医药古籍文本进行预处理得到中医药古籍文本序列;构建中医药古籍的命名实体识别模型,所中命名实体识别模型包括依次连接的embedding层、ELECTRA模块、BiLSTM模块以及CRF模块;在预训练阶段,考虑到预训练的数据过少,模型新增半固定随机掩码机制;在微调阶段,模型引入汉字偏旁特征,以丰富文本信息的内涵。采用本方法可以提高中医药古籍中方剂实体、中药实体、证型实体、疾病实体及证候表现实体的识别效果。
技术领域
本申请涉及信息处理与中医文献技术领域,特别是涉及一种中医药古籍命名实体识别方法、装置、电子设备及存储器。
背景技术
随着中医药数字化建设步伐的加快,浩瀚的中医古籍数据和各家经典成为中医药研究的重要基础;同时,日益增长的文本文献和医学诊疗数据使得传统文献研究方法黯然失色。在这个数据飞速增长的时代,如何充分利用文本资源、技术资源以挖掘更多的中医药实体间的内在联系是中医药领域科学研究发展的重要命题之一。
命名实体识别与中医药领域的结合研究是现实所趋,但是中医药领域命名实体识别研究的进展较为缓慢,尤其是在中医药古籍领域,研究成果较少。现有的基于预训练模型的命名实体识别方法采用随机掩码机制进行训练,由于中医药古籍领域中训练语料较少,并且中医药古籍中虚词、拟声词等众多,采用随机掩码(mask)无法保证训练质量,使得中医药古籍命名实体识别的效果不能满足实际要求。
发明内容
基于此,有必要针对上述技术问题,提供一种中医药古籍命名实体识别方法、装置、电子设备及存储器。
一种中医药古籍命名实体识别方法,所述方法包括:
获取中医药古籍文本,并对所述中医药古籍文本进行预处理得到中医药古籍文本序列。
构建中医药古籍的命名实体识别模型,所述命名实体识别模型包括依次连接的embedding层、ELECTRA模块、BiLSTM模块以及CRF模块。
在预训练阶段,将ELECTRA模块中新增关键字掩码机制;所述关键字掩码机制是采用半固定随机掩码的方式,在预设关键字表中随机选择关键字进行掩码。
采用所述中医药古籍文本序列对embedding层和新增关键字掩码机制后的ELECTRA模块进行预训练,得到预训练后的ELECTRA模块。
在微调阶段,在所述命名实体识别模型的嵌入编码模块新增字的偏旁部首特征输入,得到新的embedding层。
采用微调训练样本对微调阶段的命名实体识别模型进行微调训练,得到训练好的命名实体识别模型;微调阶段的命名实体识别模型包括新的embedding层、预训练后的ELECTRA模块、BiLSTM模块以及CRF模块。
采用训练好的命名实体识别模型对中医药古籍命名实体进行识别。
在其中一个实施例中,采用所述中医药古籍文本序列对embedding层和新增关键字掩码机制后的ELECTRA模块进行预训练,得到预训练后的ELECTRA模块,包括:
设置预训练步数分割参数。
根据所述预训练步数分割参数将预训练总步数分割为采用常规训练方式训练的步数和采用关键字掩码机制的训练步数。
根据将所述中医药古籍文本序列输入到embedding层中得到的编码采用ELECTRA模块的随机掩码机制对ELECTRA模块进行训练,直到训练的步数达到采用常规训练方式训练的步数,得到常规训练后的ELECTRA模块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南中医药大学,未经湖南中医药大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210928069.5/2.html,转载请声明来源钻瓜专利网。