[发明专利]数据遗漏值的填补系统及方法无效
申请号: | 201010579932.8 | 申请日: | 2010-12-02 |
公开(公告)号: | CN102486790A | 公开(公告)日: | 2012-06-06 |
发明(设计)人: | 曾新穆;谢百恩;苏家辉;许芝华 | 申请(专利权)人: | 财团法人资讯工业策进会 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F19/28 |
代理公司: | 北京中原华和知识产权代理有限责任公司 11019 | 代理人: | 寿宁;张华辉 |
地址: | 中国台湾台北市大*** | 国省代码: | 中国台湾;71 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 遗漏 填补 系统 方法 | ||
技术领域
本发明涉及一种数据填补系统与方法,特别是涉及一种用以补齐数据遗漏值的填补系统及方法。
背景技术
现今许多在生物学、医疗用途数据的收集和处理,往往在远端、或不同地方收集许多数据,再进行汇整或数据处理分析。例如,基因数据的收集技术,不外乎是利用芯片或是检测装置以检验生物组织或收集生物的生理信号,如动物或植物的细胞、体液、生物动作的生理信号...等多种不同的基因表现数据,此等基因表现数据会被记录于芯片或检测装置储存单元中的数据阵列。
然而,如上所举例的基因数据收集,当收集基因表现数据作为医学分析时,常会遇到基因表现值遗漏的情形。目前医学上若基因表现数据有遗漏时,于许多分析上即无法使用,故会被视为无效数据以将此缺值的数据列删除。然而,数据列删除过多时,将会造成分析不准确,或是无法进行分析的情形,最常见的作法是,再利用相同或相异的芯片或检测装置再次收集基因表现数据。不论是重新收集数据作业,或是使用其他芯片或检测装置,很明显的会造成珍贵医疗数据的浪费。另一方面,现今的数据补漏技术中,多提出线性回归方程式(Linear regression)、类神经网络(Neuralnetwork)与KNN(K-nearest neighborhood)。但线性回归方程式与类神经网络难以应用于类别型数据,而且,于相关的数据阵列若使用不同的补值技术,所分析出来的结果将被受质疑。另一方面,KNN则不适用于较大数据量的数据阵列,而且搜寻数据的时间会过长,所能使用的范畴太小。
因此,如何提供一适用于各种数据阵列,不会花费过长数据处理时间,且具低误差率的补值方法,为厂商应思虑的问题。
由此可见,上述现有的数据的收集和处理在方法、产品结构及使用上,显然仍存在有不便与缺陷,而亟待加以进一步改进。为了解决上述存在的问题,相关厂商莫不费尽心思来谋求解决之道,但长久以来一直未见适用的设计被发展完成,而一般方法及产品又没有适切的方法及结构能够解决上述问题,此显然是相关业者急欲解决的问题。因此如何能创设一种新的数据遗漏值的填补系统及方法,亦成为当前业界极需改进的目标。
发明内容
本发明的目的在于,克服现有的数据的收集和处理存在的缺陷,而提供一种新的数据遗漏值的填补系统及方法,所要解决的技术问题是使其提供一种利用高相似度的数据列辅助配对,以取得相关预估数据,借此以填补未知数据栏的数据遗漏值的填补系统及方法,非常适于实用。
本发明的目的及解决其技术问题是采用以下技术方案来实现的。依据本发明提出的一种数据遗漏值的填补系统,其中包括:一储存单元,其储存有一数据阵列,该数据阵列包括多个数据列以及多个数据栏,该等数据列包括多个完整数据列与多个缺值数据列,每一缺值数据列包括至少一未知数据;以及一计算设备,其包括:一分析程序;及一处理器,用以读取并利用该分析程序分析该数据阵列,其中,该处理器从该等完整数据列找出各缺值数据列近似的至少一目标数据列,从其取出至少一已知数据以推算出一预估数据,以取代其个别对应的该等未知数据并作为多个待修正数据,再从该等待修正数据找出一特定待修正数据,以该特定待修正数据所在栏的数据变化趋势,从该等数据栏中选择数据变化趋势近似顺序的一第一指定数据栏与一第二指定数据栏,并依据该特定待修正数据所在列的数据,以相同数据为同群方式找出一数据列群组,再依据该数据列群组与该第二指定数据栏的栏组合,以相同数据为同群方式划分该等数据列为多个子群组,并其中找出数据匹配该数据列群组的至少一目标群组,以利用其对应该特定待修正数据栏的数据推算出一填补数据以填入该特定待修正数据栏,再判断该特定待修正数据所在列是否有其他待修正数据,以决定是否指定另一特定待修正数据。
本发明的目的及解决其技术问题还可采用以下技术措施进一步实现。
前述的数据遗漏值的填补系统,其中所述的该处理器是建立每一完整数据列的一完整数据曲线,建立每一缺值数据列的一缺值数据曲线,并比对每一缺值数据曲线与该等完整数据曲线的相似度,以从该等完整数据曲线找出每一缺值数据曲线对应的至少一近似目标数据曲线;以及依据该等缺值数据曲线与各该目标数据曲线的匹对,找出每一缺值数据列近似的至少一最近似目标数据列。
前述的数据遗漏值的填补系统,其中所述的该处理器是判断该子群组中一特定群组的数据列,与该数据列群组中的数据列任一相符时,判断该特定群组为该目标群组,再指定待修正数据栏为指定数据栏。
前述的数据遗漏值的填补系统,其中所述的该等数据列的数据为数值型数据,该填补数据为该至少一目标群组的该指定数据栏中的数值的平均数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于财团法人资讯工业策进会,未经财团法人资讯工业策进会许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010579932.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置