[发明专利]一种大数据医疗数据特征提取和智能分析预测方法在审
| 申请号: | 201811570429.9 | 申请日: | 2018-12-21 |
| 公开(公告)号: | CN109686441A | 公开(公告)日: | 2019-04-26 |
| 发明(设计)人: | 王衎清;张倬胜 | 申请(专利权)人: | 质直(上海)教育科技有限公司 |
| 主分类号: | G16H50/20 | 分类号: | G16H50/20;G16H50/70 |
| 代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 鲁力 |
| 地址: | 200120 上海市徐*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 医疗数据 大数据 自然语言处理技术 特征提取 智能分析 预测 神经网络模型 结构化处理 关键信息 数据清洗 特征挖掘 文本转化 医疗信息 自由文本 挖掘 向量化 治愈率 萃取 病历 诊疗 验证 帮助 保存 记录 医生 分析 学习 | ||
1.一种大数据医疗病情诊断和治愈率预测方法,其特征在于,包括:
步骤1,采集病历数据,并针对数据进行清洗,具体是进行电子化、格式化、归一化病历数据,去除无效、无关的数据,作为系统输入;
步骤2,将输入病历数据进行向量化,具体是将中文病历进行分词,作为系统输入的基本单元;
步骤3,挖掘步骤2输出的病历数据,并进行信息提取,具体是将病历数据都表示成向量之后,通过神经网络提取其中的内在特征和病理,
步骤4,获取病情诊断和治愈率预测结果;
步骤5,参数调优与更新,机器学习模块通过训练使预测值拟合于真实治愈率,计算预测值和真实值之间的误差(损失函数),更新系统参数,不断降低损失,使结果不断趋向准确。
2.根据权利要求1所述的一种大数据医疗病情诊断和治愈率预测方法,其特征在于,步骤1的具体方法包括:对于不同量纲的数值统一量纲单位;使用归一化方法统一数值型数据的分布区间,方法为:
归一化后的数值=(原数值-最小值)/(最大值-最小值)。
3.根据权利要求1所述的一种大数据医疗病情诊断和治愈率预测方法,其特征在于,步骤2中进行向量化的具体步骤是:
步骤一,建立词语表,具体是遍历全部数据,得到全部的词语集合;
步骤二,将每个词语转换成向量,具体是:假设整个病历集的不重复的词语数为K,使用自然语言处理中的词嵌入方法将该K个元素各自映射至特定维度N的向量空间中,得到K×N的映射空间,此时词表元素表示为(K,N)维度的向量;例如可以通过词嵌入的方式将“医疗”表示为100维的向量[0.618 0.24911-0.42242 0.1217 0.34527-0.034457…]。
4.根据权利要求1所述的一种大数据医疗病情诊断和治愈率预测方法,其特征在于,步骤3采用神经网络提取数据中的内在特征和病理,具体方法是:设置向量化后的文本数据为输入,通过神经网络(如卷积神经网络)为的神经元自动计算向量空间中的特征表示,输出为神经元学习后的特征向量。
5.根据权利要求1所述的一种大数据医疗病情诊断和治愈率预测方法,其特征在于,步骤4中,病情诊断的具体方法包括:
病情诊断可视为机器学习中的多种诊断目标分类任务,具体为将特征向量通过转换为每种可能病例类型的概率,方法为:
其中aj是神经网络输出的特征向量,j表示类别索引,总的类型数量是T,Sj表示当前元素的指数与所有元素指数和的比值。
6.根据权利要求1所述的一种大数据医疗病情诊断和治愈率预测方法,其特征在于,步骤4中,治愈率预测的具体方法包括:
愈率预测设定为回归任务,治愈率预测步骤中,将特征向量转换为0-1的治愈率区间;具体为:在得到h之后可以通过一个sigmoid函数(不仅限该种函数);
其中a是神经网络输出的特征向量,y为治愈率预测结果。
7.根据权利要求1所述的一种大数据医疗病情诊断和治愈率预测方法,其特征在于,步骤5中,损失函数使用回归拟合计算预测概率和真实值之间的差距;
对于病情诊断使用交叉熵;
对于治愈率采用均方误差:
其中在上述两个公式中,yt为目标类别,预测类别,N表示输入数据的个数,t表示当前的数据序号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于质直(上海)教育科技有限公司,未经质直(上海)教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811570429.9/1.html,转载请声明来源钻瓜专利网。





