[发明专利]一种用于肝癌病理文本命名的实体识别方法在审
申请号: | 202110864136.7 | 申请日: | 2021-07-29 |
公开(公告)号: | CN113627185A | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 胡峰;何晓莲;张清华;高满;邓纬斌 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/35;G06N20/20;G16H50/70 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 卢胜斌 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 肝癌 病理 文本 命名 实体 识别 方法 | ||
1.一种用于肝癌病理文本命名的实体识别方法,其特征在于,包括:实时获取肝癌病理文本信息,对该文本信息进行预处理;将预处理后的文本信息输入到训练好的肝癌病理文本命名实体模型,得到肝癌病理文本信息识别结果;根据识别结果对肝癌病理文本信息进行分类标记;肝癌病理文本命名实体模型包括:NER教师模型、十折模型以及命名实体抽取模型;
对肝癌病理文本命名实体模型进行训练的过程包括:
S1:获取肝癌病理文本数据集,将该数据集输入到肝癌体系化标注知识库中,对肝癌病理文本数据集中的数据进行实体标注;
S2:将肝癌病理文本数据集输入到NER教师模型中,采用半监督-自训练方式得到训练集的标签soft label;
S3:将进行实体标注的肝癌病理文本数据集输入到十折模型进行训练,得到增强去噪后的实体标注肝癌病理文本数据集;将增强后的实体标注肝癌病理文本数据集与训练集的标签soft label进行合并,得到训练数据集;
S4:将训练集中的数据输入到命名实体抽取模型中进行训练,得到识别结果;
S5:根据识别结果计算模型的损失函数,采用AdamW优化器、基于余弦退火的学习率调整算法以及快照集成学习对模型的参数进行调整,当损失函数的值达到最小时,完成模型的训练。
2.根据权利要求1所述的一种用于肝癌病理文本命名的实体识别方法,其特征在于,对肝癌病理文本数据集中的数据进行实体标注的过程包括:将已知的标注数据作为先验知识获取具有权威性的原发性肝癌规范化病理诊断指南,根据原发性肝癌规范化病理诊断指南划分出肝癌病理十大类实体,并整理出体系化十大类实体标注导图;每个导图中包含每个实体的不同描述、情况以及参考文献;根据十大类实体标注导图对未标注的肝癌病理文本编写自动化标注脚本,得到实体标注的数据。
3.根据权利要求2所述的一种用于肝癌病理文本命名的实体识别方法,其特征在于,在对肝癌病理文本数据集中的数据进行实体标注的过程中根据实体的描述和属性去除冗余和无用的实体,保留实体重叠的部分,以确定实体的识别的完整性和正确性。
4.根据权利要求1所述的一种用于肝癌病理文本命名的实体识别方法,其特征在于,进行实体标注的类别包括:“肿瘤位置”、“肿瘤组织学类型”、“肿瘤分化程度”、“肿瘤数量”、“肿瘤大小”、“微血管癌栓”、“卫星子灶”、“肝硬化程度”、“病理分期”、“包膜”;其中标记的类别为数据的第i个字段的一个字段位置mi。
5.根据权利要求1所述的一种用于肝癌病理文本命名的实体识别方法,其特征在于,采用半监督-自训练方式得到训练集的标签soft label的过程包括:将具有原始标注数据的病理文本输入到BERT_CRF模型中进行训练验证,选取验证集上f1值最高的一个模型作为NER教师模型;采用NER教师模型对未标注肝癌病理文本数据进行预测,预测结果为soft标签;将得到soft标签的数据作为增强数据,将增强数据病理文本与原始标注数据的病理文本进行合并,得到训练集的标签soft label。
6.根据权利要求1所述的一种用于肝癌病理文本命名的实体识别方法,其特征在于,采用十折模型对实体标注的肝癌病理文本数据集进行去噪处理的过程包括:对已经标注的肝癌病理文本进行检查,判断是否存在漏标和误标情况;将漏标和误标的肝癌病理文本进行删除,将删除后的标注肝癌病理文本输入到十折交叉模型中,去除模型低置信度的结果,得到增强去噪后的实体标注肝癌病理文本数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110864136.7/1.html,转载请声明来源钻瓜专利网。