[发明专利]经改变的数据集的数据分析中的可靠性度量在审
| 申请号: | 201680044286.0 | 申请日: | 2016-07-18 |
| 公开(公告)号: | CN107851465A | 公开(公告)日: | 2018-03-27 |
| 发明(设计)人: | U·拉加万;D·R·埃尔戈特 | 申请(专利权)人: | 皇家飞利浦有限公司 |
| 主分类号: | G16H70/00 | 分类号: | G16H70/00 |
| 代理公司: | 永新专利商标代理有限公司72002 | 代理人: | 王英,刘炳胜 |
| 地址: | 荷兰艾*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 改变 数据 分析 中的 可靠性 度量 | ||
技术领域
以下总体涉及数据分析和数据挖掘,具体应用于通过健康护理数据的数据清理和数据整合所改变的数据集的数据分析。
背景技术
数据挖掘已经在具有从多种来源累积的数据的大数据集上进行。数据挖掘可以包括数据收集、数据结构化、数据清理(例如,消除不一致)、纠正错误、整合或编译来自不同来源的数据,并分析数据以获得新的信息。来自健康护理提供者的数据可以提供关于患者风险、健康护理处置或趋势的信息。诸如聚类分析、方差分析和其他统计技术的数据分析通常接受数据值是准确的,并且通过识别和去除离群值来专注于归类/分类/预测。
当数据被修改以准备分析时,数据的改变会给数据增加不确定性,从而可能带来对不确定数据的分析。例如,药物名称可能拼写错误,使用商品名称,使用缩写等。一种方法是在数据清理期间标记任何改变的数据。基于通过数据清理修改的识别组中记录的百分比来判断后续分析的可靠性,例如,根据聚类分析在识别出的聚类中的修改数据的高百分比指示该聚类是可疑的。然而,使用标记不会区分数据改变类型,其中一些是显而易见的,例如小的拼写错误,而一些不太明显,如缩写或替代名称。清理数据的过程可以在经清理的数据中引入新的模式,这被认为是虚假的,例如,指示清理过程,并不反映原始数据或底层数据模式。
对随后分析数据引入不确定性的另一领域是对来自不同来源的数据的整合。健康护理提供者按规章提供去识别的患者数据,即从数据中去除患者身份。数据来源可以包括来自健康护理提供者内的不同区域,例如患者护理记录、帐单、入院、药房、放射科等。源可以在不同的健康护理提供者之间,例如不同的站点,不同的医院,不同的门诊等。由于数据是从不同的来源整合来识别模式,所以匹配算法会增加不确定性,并将其传递给后续的分析。例如,去识别的患者诊断可以与去识别的药房记录整合。根据诊断处方的药物的分析可以包括根据患者诊断如何匹配到药房记录的错误,例如虚假的,而不是基于诊断如何对患者进行药物处方,例如不是虚假的。然而,数据分析技术不包括数据整合的可靠性度量,通常只有用于所应用数据分析技术的置信度分数或准确性测量,例如回归分析/方差分析中的R2值。
发明内容
本文描述的各方面解决了上述问题和其他问题。
以下描述了一种确定对经改变的数据的分析的可靠性度量的方法和系统。所述经改变的数据包括与数据相关联的置信度分数。置信度分数可以与通过数据清理和/或通过数据整合而整合的记录实例而改变的数据元素的特定实例相关联。
在一个方面,一种分析技术使用配置的一个或多个处理器,所述配置的一个或多个处理器创建一个或多个分析度量,并且测试数据集根据置信度分数从经改变的数据集中选择。使用配置的一个或多个处理器,基于所述一个或多个分析度量与根据应用于根据不同置信度分数从经改变的数据集选择的一个或多个可靠性测试数据集的数据分析技术创建的相同分析度量的相似性,计算所述一个或多个分析度量的至少一个可靠性度量。
在另一方面,一种用于对经改变的数据进行数据分析的系统包括分析单元和可靠性单元。所述分析单元包括一个或多个配置的处理器,所述分析单元利用数据分析技术来分析根据置信度分数从经改变的数据集选择的测试数据集,其创建一个或多个分析度量,并且根据被应用到根据不同置信度分数从经改变的数据集选择的一个或多个可靠性测试数据集的数据分析技术创建相同分析度量。所述可靠性单元包括一个或多个经配置的处理器,所述可靠性单元基于所述一个或多个分析度量和应用于所述一个或多个可靠性度量数据集的相同分析度量的相似性,来计算所述一个或多个分析度量的至少一个可靠性度量。
在另一方面,一种对经改变的数据进行数据分析的方法,包括:从经改变的数据集中选择具有大于阈值量的第一置信度分数的测试数据集,与所述第一置信度分数相比具有负差值的第二置信度分数的第一可靠性测试数据集,以及与所述第一置信度分数相比具有正差值的第三置信度分数的第二可靠性测试集。通过使用一个或多个处理器应用的数据分析技术来分析所述测试数据集、所述第一可靠性测试数据集和所述第二可靠性测试数据集,所述一个或多个处理器创建一组分析度量,至少一个分析度量用于被分析的每个数据集。基于来自经分析的测试数据集的所述至少一个分析度量和来自经分析的第一可靠性测试数据集的所述至少一个分析度量,来计算所述至少一个分析度量的第一可靠性度量值;并且基于来自经分析的测试数据集的所述至少一个分析度量和来自经分析的第二可靠性测试数据集的所述至少一个分析度量,来计算所述至少一个分析度量的第二可靠性度量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于皇家飞利浦有限公司,未经皇家飞利浦有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680044286.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





