[发明专利]一种大数据医疗数据特征提取和智能分析预测方法在审

申请号：	201811570429.9	申请日：	2018-12-21
公开（公告）号：	CN109686441A	公开（公告）日：	2019-04-26
发明（设计）人：	王衎清;张倬胜	申请（专利权）人：	质直（上海）教育科技有限公司
主分类号：	G16H50/20	分类号：	G16H50/20;G16H50/70
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	鲁力
地址：	200120 上海市徐***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	医疗数据大数据自然语言处理技术特征提取智能分析预测神经网络模型结构化处理关键信息数据清洗特征挖掘文本转化医疗信息自由文本挖掘向量化治愈率萃取病历诊疗验证帮助保存记录医生分析学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种大数据医疗病情诊断和治愈率预测方法，其特征在于，包括：

步骤1，采集病历数据，并针对数据进行清洗，具体是进行电子化、格式化、归一化病历数据，去除无效、无关的数据，作为系统输入；

步骤2，将输入病历数据进行向量化，具体是将中文病历进行分词，作为系统输入的基本单元；

步骤3，挖掘步骤2输出的病历数据，并进行信息提取，具体是将病历数据都表示成向量之后，通过神经网络提取其中的内在特征和病理，

步骤4，获取病情诊断和治愈率预测结果；

步骤5，参数调优与更新，机器学习模块通过训练使预测值拟合于真实治愈率，计算预测值和真实值之间的误差(损失函数)，更新系统参数，不断降低损失，使结果不断趋向准确。

2.根据权利要求1所述的一种大数据医疗病情诊断和治愈率预测方法，其特征在于，步骤1的具体方法包括：对于不同量纲的数值统一量纲单位；使用归一化方法统一数值型数据的分布区间，方法为：

归一化后的数值＝(原数值-最小值)/(最大值-最小值)。

3.根据权利要求1所述的一种大数据医疗病情诊断和治愈率预测方法，其特征在于，步骤2中进行向量化的具体步骤是：

步骤一，建立词语表，具体是遍历全部数据，得到全部的词语集合；

步骤二，将每个词语转换成向量，具体是：假设整个病历集的不重复的词语数为K，使用自然语言处理中的词嵌入方法将该K个元素各自映射至特定维度N的向量空间中，得到K×N的映射空间，此时词表元素表示为(K，N)维度的向量；例如可以通过词嵌入的方式将“医疗”表示为100维的向量[0.618 0.24911-0.42242 0.1217 0.34527-0.034457…]。

4.根据权利要求1所述的一种大数据医疗病情诊断和治愈率预测方法，其特征在于，步骤3采用神经网络提取数据中的内在特征和病理，具体方法是：设置向量化后的文本数据为输入，通过神经网络(如卷积神经网络)为的神经元自动计算向量空间中的特征表示，输出为神经元学习后的特征向量。

5.根据权利要求1所述的一种大数据医疗病情诊断和治愈率预测方法，其特征在于，步骤4中，病情诊断的具体方法包括：

病情诊断可视为机器学习中的多种诊断目标分类任务，具体为将特征向量通过转换为每种可能病例类型的概率，方法为：

其中a_j是神经网络输出的特征向量，j表示类别索引，总的类型数量是T，S_j表示当前元素的指数与所有元素指数和的比值。

6.根据权利要求1所述的一种大数据医疗病情诊断和治愈率预测方法，其特征在于，步骤4中，治愈率预测的具体方法包括：

愈率预测设定为回归任务，治愈率预测步骤中，将特征向量转换为0-1的治愈率区间；具体为：在得到h之后可以通过一个sigmoid函数(不仅限该种函数)；

其中a是神经网络输出的特征向量，y为治愈率预测结果。

7.根据权利要求1所述的一种大数据医疗病情诊断和治愈率预测方法，其特征在于，步骤5中，损失函数使用回归拟合计算预测概率和真实值之间的差距；

对于病情诊断使用交叉熵；

对于治愈率采用均方误差：

其中在上述两个公式中，y_t为目标类别，预测类别，N表示输入数据的个数，t表示当前的数据序号。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。