[发明专利]一种基于迁移学习的中医健康咨询文本命名实体识别方法有效
| 申请号: | 201910076463.9 | 申请日: | 2019-01-26 |
| 公开(公告)号: | CN109918644B | 公开(公告)日: | 2022-12-16 |
| 发明(设计)人: | 文贵华;陈河宏 | 申请(专利权)人: | 华南理工大学 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 何淑珍;江裕强 |
| 地址: | 510640 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 迁移 学习 中医 健康 咨询 文本 命名 实体 识别 方法 | ||
本发明公开了一种基于迁移学习的中医健康咨询文本命名实体识别方法,包括以下步骤:S1、选择其他领域文本命名实体识别标注数据集,构造神经网络,进行预训练。S2、分别构造单向循环神经网络,利用中医健康咨询文本无标注数据集,进行语言模型训练,得到前向和反向语言模型。S3、融合单向语言模型的循环网络层输出特征,结合全连接网络层和条件随机场层得到最终的命名实体识别模型。S4、使用中医健康咨询文本命名实体识别标注数据集,进行微调训练。所述方法能够迁移其它领域的命名实体识别有标注文本知识和本领域的无标注文本知识,有效提高中医健康咨询文本命名实体识别的准确率和召回率,加速模型的收敛速度。
技术领域
本发明涉及自然语言序列标注的应用技术领域,具体涉及一种基于迁移学习的中医健康咨询文本命名实体识别方法。
背景技术
随着互联网的快速发展和普及,越来越多的人选择通过在健康医疗网站上,以在线问答的形式,向医生进行在线的健康咨询,这种方法比较方便高效地促进医生和患者之间的健康交流,但是很多时候,由于我国医生资源相对紧张,很多患者的在线健康咨询问题,往往不能得到及时的专业答复。于此同时,随着人工智能技术在文本处理方面的应用,越来越多的机构构造了医学相关知识库。如何通过自然语言处理技术,自动的从用户的在线健康咨询文本中获取用户询问的意图,结合现有的医学知识库为用户提供专业的回答,具有重要的研究意义。
其中,信息抽取技术是从在线健康咨询文本中获取用户意图的关键技术,其包括实体抽取和关系抽取,而实体抽取即命名实体识别是实现信息抽取的先决技术,其命名实体识别的质量将直接影响到后续关系抽取等步骤的效果。命名实体识别技术具体指的是对文本中的人名,时间,地名,机构名称等指定类型的实体进行有效的识别提取,在在线健康咨询文本中主要指的是对健康咨询文本中的解剖部位,症状描述以及独立症状进行命名实体识别。
传统的命名实体识别技术主要包括基于规则的方法,基于概率统计的方法以及基于深度学习的方法,其中,基于深度学习的方法是目前广泛使用的有效方法,其通过神经网络自动从训练文本中学习到文本特征,结合归一化指数函数层(softmax)或条件随机场分类器进行序列标注。常用的命名实体识别神经网络包括循环神经网络,卷积神经网络和基于注意力机制的神经网络以及它们之间相互混合的神经网络。
由于深度学习需要比较大的命名实体识别标注数据才能够较好的学习文本的泛化特征,在有标注的咨询健康咨询文本量较少的情况下,利用上述的深度神经网络进行在线健康咨询文本命名实体识别时,模型容易发生过拟合现象,从而不能达到较好的识别效果。于此同时,相对于有标注数据获取比较困难的现状,我们往往可以比较容易的得到较大规模的其他领域命名实体标注数据和在线健康咨询文本的无标注数据,通过迁移学习技术学习这些大规模语料的语法和语义信息,将能够较好的改善神经网络进行在线健康咨询文本命名实体识别的效果。
发明内容
本发明的目的是针对现有技术的不足,提供了一种基于迁移学习的中医健康咨询文本命名实体识别方法,所述方法能够充分利用其它领域的标注语料和本领域的无标注语料信息,解决了由于中医在线健康咨询文本命名实体识别标注语料数据量小,导致进行命名实体识别低准确率,低召回率的问题。
本发明的目的可以通过如下技术方案实现。
一种基于迁移学习的中医健康咨询文本命名实体识别方法,所述方法包括以下步骤:
S1、构造函数,选择与中医健康咨询命名实体识别任务相关度高的其他领域文本命名实体识别标注数据集,构造神经网络,利用其他领域文本命名实体识别标注数据集对神经网络进行预训练;
S2、分别构造前向和反向的循环神经网络,利用中医健康咨询文本无标注数据集,分别对前向和反向的循环神经网络进行预训练,得到前向语言模型和反向语言模型;
S3、在S1预训练的神经网络基础上,融合S2中前向语言模型和反向语言模型的循环神经网络层特征,结合全连接网络层和条件随机场层,得到中医健康咨询文本命名实体识别模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910076463.9/2.html,转载请声明来源钻瓜专利网。





