[发明专利]一种任务导向的数据可用性提高方法在审
申请号: | 201810186852.2 | 申请日: | 2018-03-07 |
公开(公告)号: | CN108304586A | 公开(公告)日: | 2018-07-20 |
发明(设计)人: | 李保珍;韩占校;张亭亭;余臻 | 申请(专利权)人: | 南京审计大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京彭丽芳知识产权代理有限公司 11407 | 代理人: | 彭丽芳 |
地址: | 211815 江苏省南京市浦口区江浦街*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 任务导向 多源数据 挖掘 构建 可用 数据可用性 数据属性 数据集 图理论 多源数据集 潜在属性 任务筛选 任务属性 用户预期 | ||
本发明公开了一种任务导向的数据可用性提高方法,基于二部分图理论及数据属性与任务属性的相关性,构建任务导向性的潜在可用属性挖掘模型;并基于二部分图理论及任务导向的数据属性相关性,构建任务导向性的具有互补属性的多源数据挖掘模型;然后通过所构建的任务导向性的潜在可用属性挖掘模型挖掘出现有数据集的潜在可用属性及互补多源数据;再通过所构建的任务导向性的具有互补属性的多源数据挖掘模型挖掘出现有数据集具有互补属性的其它多源数据集。本发明所提出的潜在属性挖掘模型及互补多源数据挖掘模型,可针对特定任务筛选出能够超过用户预期的可用属性及多源数据,进而可提高特定任务的实现效率。
技术领域
本发明涉及数据处理领域,具体涉及一种任务导向的数据可用性提高方法。
背景技术
随着信息技术的发展,数据获取能力有了极大提高,我们能够及时获取海量、多源、异构的数据,然而,对于特定决策或预测任务而言,相关数据具有极大的噪音,也即很多现有可获得的数据属性与特定任务目标不相关;另一方面,由于信息孤岛、数据隐私安全等原因,与特定预测或决策任务相关的数据属性很多有不能够及时获取。
因而在特定任务的数据可用性分析过程中存在着一个固有的矛盾:特定的任务需要特定的数据属性,但是我们不能从可用的数据中获得这些属性;可用数据有许多属性,但这些特性与特定的任务没有直接关系。前一个问题是“任务需求超过数据供给”,即具体任务要求不能被许多属性的可用数据的属性匹配;后一个问题是“数据供应超过任务要求”,即有许多可用的数据属性,但他们没有具体的任务需求的属性有关。针对可获得数据的可用性问题,也即针对特定任务的数据相关性及完备性问题,一直是理论界及应用界多关注的热点和难点。
目前,现有技术的缺点主要包括以下几点:
(1)数据质量的研究主要集中在数据的精确性和相关性研究,而对于面向特定任务的数据可用性的研究较少;
(2)数据集相关性的研究主要集中在信息检索领域,其应用主要体现在电子商务的精准营销及个性化推荐,而目前的数据相关性研究多集中在现有数据属性与任务需求的相关性,尚缺乏对于数据潜在有价值属性的相关性挖掘;
(3)数据集完备性的相关研究主要集中在数据融合领域,其应用主要体现在数据交易领域,而目前的数据完备性研究多集中在现有数据属性的完整性,尚缺乏针对特定任务需求,对多源异构数据属性的互补性挖掘。
发明内容
为解决上述问题,本发明提供了一种任务导向的数据可用性提高方法。
为实现上述目的,本发明采取的技术方案为:
一种任务导向的数据可用性提高方法,包括如下步骤:
S1、基于数据属性与任务属性的相关性及完备性,制定任务导向性的数据可用性定量评价指标体系;
S2、基于二部分图理论及数据属性与任务属性的相关性,构建任务导向性的潜在可用属性挖掘模型;
S3、基于二部分图理论及任务导向的数据属性相关性,构建任务导向性的具有互补属性的多源数据挖掘模型;
S4、通过所构建的任务导向性的潜在可用属性挖掘模型挖掘出现有数据集的潜在可用属性及互补多源数据;
S5、通过所构建的任务导向性的具有互补属性的多源数据挖掘模型挖掘出现有数据集具有互补属性的其它多源数据集。
其中,所述任务导向性的潜在可用属性挖掘模型通过以下步骤构建:
输入:数据属性矩阵MDF,任务属性矩阵MTF;
输出:数据源Dj和任务Ti具有潜在可用性匹配值的匹配矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京审计大学,未经南京审计大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810186852.2/2.html,转载请声明来源钻瓜专利网。