[发明专利]一种数据质量评估方法及系统有效
| 申请号: | 202010472680.2 | 申请日: | 2020-05-28 |
| 公开(公告)号: | CN111612783B | 公开(公告)日: | 2023-10-24 |
| 发明(设计)人: | 李安然;张兰;李向阳;谢筠庭 | 申请(专利权)人: | 中国科学技术大学 |
| 主分类号: | G06T7/00 | 分类号: | G06T7/00;G06F40/253;G06F40/232;G06F18/213;G06F18/22;G06N3/0464;G06N3/045 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王娇娇 |
| 地址: | 230026 安*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 数据 质量 评估 方法 系统 | ||
1.一种数据质量评估方法,其特征在于,包括:
对数据集进行评估与任务无关的数据内部特征,得到满足最低内在质量要求的数据集;
对所述满足最低内在质量要求的数据集和样本数据集中的每个数据进行特征提取,得到每个数据的特征向量;
对所述满足最低内在质量要求的数据集和样本数据集中的每个数据的特征向量进行上下文质量评估,得到质量评估结果;
对所述质量评估结果进行质量排序。
2.根据权利要求1所述的方法,其特征在于,所述对数据集进行评估与任务无关的数据内部特征,得到满足最低内在质量要求的数据集,包括:
通过模式匹配方法对数据集的正确性、可靠性和无错误的程度进行评估,得到准确性量化值;
对数据集的数据采集和存储精度进行评估,得到精确性量化值;
对数据集的无偏程度进行评估,得到客观性量化值;
对数据集的数据源被信任程度进行评估,得到可信赖性量化值;
基于所述准确性量化值、精确性量化值、客观性量化值、可信赖性量化值、准确性最低质量要求值、精确性最低质量要求值、客观性最低质量要求值和可信赖性最低质量要求值,得到满足最低内在质量要求的数据集。
3.根据权利要求1所述的方法,其特征在于,所述对所述满足最低内在质量要求的数据集和样本数据集中的每个数据进行特征提取,得到每个数据的特征向量,包括:
对所述满足最低内在质量要求的数据集和样本数据集中的每个图片数据,利用VGG-16模型,提取第八层特征作为图片数据的特征向量。
4.根据权利要求1所述的方法,其特征在于,所述对所述满足最低内在质量要求的数据集和样本数据集中的每个数据进行特征提取,得到每个数据的特征向量,包括:
对所述满足最低内在质量要求的数据集和样本数据集中的每个文本数据,利用BERT模型,提取倒数第二层特征作为文本数据的特征向量。
5.根据权利要求1所述的方法,其特征在于,对所述满足最低内在质量要求的数据集和样本数据集中的每个数据的特征向量进行上下文质量评估,得到质量评估结果,包括:
采用基于局部敏感哈希的方法,计算所述满足最低内在质量要求的数据集和样本数据集中相似点对的数量与距离的比值,得到任务相关性评估结果;
采用基于局部敏感哈希的方法,计算所述满足最低内在质量要求的数据集和样本数据集的平均距离,得到内容多样性评估结果;
计算所述满足最低内在质量要求的数据集和样本数据集中非空数据的数量与数据总量的比值,得到完整性评估结果;
评估所述满足最低内在质量要求的数据集和样本数据集中的数据量是否满足给定任务的要求,得到数据量的合适程度评估结果;
评估所述满足最低内在质量要求的数据集和样本数据集的使用周期是否满足给定任务的要求,得到时效性评估结果。
6.一种数据质量评估系统,其特征在于,包括:
内在质量评估模块,用于对数据集进行评估与任务无关的数据内部特征,得到满足最低内在质量要求的数据集;
特征提取模块,用于对所述满足最低内在质量要求的数据集和样本数据集中的每个数据进行特征提取,得到每个数据的特征向量;
上下文质量评估模块,用于对所述满足最低内在质量要求的数据集和样本数据集中的每个数据的特征向量进行上下文质量评估,得到质量评估结果;
质量排序模块,用于对所述质量评估结果进行质量排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010472680.2/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





