[发明专利]一种跨病种的小样本临床医疗文本后结构化处理方法在审
| 申请号: | 202011567629.6 | 申请日: | 2020-12-26 |
| 公开(公告)号: | CN112685561A | 公开(公告)日: | 2021-04-20 |
| 发明(设计)人: | 刘翔 | 申请(专利权)人: | 广州知汇云科技有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04 |
| 代理公司: | 汕头兴邦华腾专利代理事务所(特殊普通合伙) 44547 | 代理人: | 张树峰;梁凤德 |
| 地址: | 510000 广东省广州市南沙区*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 跨病种 样本 临床 医疗 文本 结构 处理 方法 | ||
1.一种跨病种的小样本临床医疗文本后结构化处理方法,其特征在于,包括以下步骤:
获取A病种的小样本文本信息和B病种的大样本文本信息,并采用文本困惑度的文本聚类获取待标注信息,对待标注信息进行标注,得到标注后的文本信息;标注后的所述文本信息包括标准问题列表、目标问题列表和小样本标注语料;
在pytorch神经网络框架下,利用元学习和LSTM模型训练是否型问题的信息抽取模型,得到元模型;
利用标注后的文本信息对元模型进行训练,得到小样本病历的文本后结构化模型;
利用文本后结构化模型识别的A病种的文本信息。
2.根据权利要求1所述的一种跨病种的小样本临床医疗文本后结构化处理方法,其特征在于,所述获取A病种的小样本文本信息和B病种的大样本文本信息,并采用文本困惑度的文本聚类获取待标注信息,包括以下步骤:
分别获取A病种的小样本文本信息和B病种的大样本文本信息;
将A病种的小样本文本信息和B病种的大样本文本信息的符号标准化,并按段落、句子、文本类型进行切分,得到切分后的文本数据;
将切分后的文本数据转换成二进制,得到二进制数据;
结合BERT模型,并按A病种、B病种依次利用二进制数据进行逐个训练,得到BERT语言模型;
利用tensorflow框架求得A病种的小样本文本信息和B病种的大样本文本信息的困惑度,并滤除大于预设阈值的句子,构成差异集合;
利用BERT语言模型求得差异集合中任一句子的局向量;
采用层次聚类算法对局向量进行聚类,得到待标注信息。
3.根据权利要求1或2所述的一种跨病种的小样本临床医疗文本后结构化处理方法,其特征在于,所述LSTM模型采用依次连接的输入门、遗忘门和输出门。
4.根据权利要求3所述的一种跨病种的小样本临床医疗文本后结构化处理方法,其特征在于,所述遗忘门满足以下关系:
ft=σ(Wf·[ht-1,xt]+bf)
其中,ht-1表示上一细胞的输出,xt表示当前细胞的输出,σ表示激活函数,Wf表示遗忘门的权重矩阵,bf表示遗忘门的偏置项
5.根据权利要求3所述的一种跨病种的小样本临床医疗文本后结构化处理方法,其特征在于,所述输入门满足以下关系:
其中,ft为遗忘门的输出,即模型会从细胞状态中丢弃的信息,σ表示激活函数,Ct-1表示旧的细胞状态,it为输入门门控,即控制当前时刻需要保留哪些之前学到的东西,表示当前时刻学到的东西;
所述it的表达式为:
it=σ(Wi·[ht-1,xt]+bi)
其中,σ表示激活函数,Wi表示输入门门控的权重矩阵,ht-1表示上一细胞的输出,xt表示当前细胞的输出,bi表示输入门门控的偏置项;
所述的表达式为:
其中,tanh表示激活函数,Wc表示学习新知识时的权重矩阵,ht-1表示上一细胞的输出,xt表示当前细胞的输出,bc表示学习新知识时的偏置项。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州知汇云科技有限公司,未经广州知汇云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011567629.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:生产信息处理系统
- 下一篇:一种轮滑鞋轮子耐磨性测试工具





