[发明专利]融合实体关键字特征的医疗领域实体分类方法在审
申请号: | 202011482958.0 | 申请日: | 2020-12-16 |
公开(公告)号: | CN112507717A | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 吕学强;游新冬;董志安 | 申请(专利权)人: | 北京信息科技大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G16H15/00;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融合 实体 关键字 特征 医疗 领域 分类 方法 | ||
本申请公开了一种融合实体关键字特征的医疗领域实体分类方法,包括:文本向量化操作;特征提取;序列标注。本申请实施例提供的融合实体关键字特征的医疗领域实体分类方法,采用TF‑IDF辅助构建关键字表,将这些关键字作为特征输入模型,采用BERT模型进行文本向量化操作生成字向量,将字向量输入BILSTM‑CNN混合模型学习特征,再经过CRF层进行序列标注,能够实现医疗领域实体分类,且能够大大提高医疗领域实体分类的准确率、召回率和F1值。
技术领域
本申请涉及文本处理技术领域,具体涉及一种融合实体关键字特征的医疗领域实体分类方法。
背景技术
大数据时代的到来为获取信息带来了便利,面对大量的信息,信息抽取可以帮助人们快速的从大量文档中获取有效的信息并对有效信息进行分析,因此信息抽取得到了广泛的应用。实体抽取是信息抽取中十分重要的内容,同时也是构建知识图谱、对话系统、机器翻译等的基础任务,近年来,随着机器学习、深度学习等方法也被广泛应用于实体抽取研究。智慧医疗的出现打破了传统医疗的禁锢,在互联网+医疗健康的背景下,人工智能应用于医疗健康领域是大势所趋,越来越多的学者开始从事医疗领域实体抽取、关系抽取等信息抽取研究。
在现有的实体抽取研究方法中,常常将数据处理为字符级或是词级,作为模型的输入部分。词级的数据往往是通过各类分词工具得到,错误的分词结果可能会导致错误的抽取结果,分词的准确性就会直接影响到实体抽取的准确性。而词性、词频、词长、依存句法分析等可以辅助进行实体抽取的特征也大多是基于词的,如果采用字符级的数据作为输入,则无法直接融入词级特征,而目前也鲜有可用于字符级的特征。同时,现有的实体抽取研究较少聚焦在特定领域数据的独特性上。
发明内容
本申请的目的是提供一种融合实体关键字特征的医疗领域实体分类方法。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
根据本申请实施例的一个方面,提供一种融合实体关键字特征的医疗领域实体分类方法,包括:
文本向量化操作;
特征提取;
序列标注。
进一步地,所述文本向量化操作包括:经过BERT预训练语言模型将标注数据以及关键字特征转化为字向量。
进一步地,在所述文本向量化操作之前,所述方法还包括:采用TF-IDF辅助构建关键字。
进一步地,所述采用TF-IDF辅助构建关键字,包括:
构建停用词表;
计算词频;
计算逆文档频率;
计算TF-IDF值;
将得到的TF-IDF值按降序排列,提取出关键词;
从关键词中筛选出关键字。
进一步地,所述特征提取包括:将所述字向量输入BILSTM中进行处理,再将处理结果经过CNN层进一步处理,得到提取的特征。
进一步地,所述序列标注包括:将CNN层输出的结果输入到CRF层进行标注,得到标注序列。
进一步地,所述文本向量化操作,包括:
通过BERT预训练模型对输入的医疗领域实验数据进行嵌入操作,将输入的字符转化为向量;
句子嵌入;
定义位置信息进行位置嵌入,标记该字符在输入数据中所处的位置;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011482958.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:文字识别矫正的方法
- 下一篇:一种基于自然语言信息辅助的目标追踪方法