[发明专利]一种基于迭代式与交互式感知年龄数据库的清洗方法在审
申请号: | 201711170178.0 | 申请日: | 2017-11-22 |
公开(公告)号: | CN107977412A | 公开(公告)日: | 2018-05-01 |
发明(设计)人: | 范伟琦;孙广玲;张天;邓小宝;陆小锋;钟宝燕 | 申请(专利权)人: | 上海大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 上海上大专利事务所(普通合伙)31205 | 代理人: | 陆聪明 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 迭代式 交互式 感知 年龄 数据库 清洗 方法 | ||
技术领域
本发明涉及一种感知年龄数据库的清洗方法,特别涉及一种基于迭代式与交互式感知年龄数据库的清洗方法。
背景技术
在传统观念里,感知年龄可能会与阅历、责任、成长这些关联在一起,并且不同的人对同一个人的年龄感知也会存在一定的差异,而一个人的生理年龄是不会受外界因素影响而改变,因此人的感知年龄和生理年龄会存在一定差别。在年龄数据库标注的工作中,仅仅依靠人的主观感知对人脸数据库进行年龄标签的标注会存在一定的误差,这种误差会给年龄数据库引入一定量的脏数据,所谓脏数据就是生理年龄与感知年龄差别较大的样本。如果对这样的年龄数据库不进行清洗而直接使用,那么这样的年龄数据库就没有精度可言,会给使用者在实验数据上造成误差。
数据库领域有很多成熟的数据清洗技术,但是,大部分技术都是针对一些特定的数据质量问题(数据重复),这些系统的交互功能往往也是有限的。另外,脏数据无处不在,目前没有通用有效的方法完全清除。很多有关于数据预处理的工作常常只进行一些简单的人工数据清洗,甚至有些假设数据的原始纯净性,而忽视原始数据中的质量问题。因此拿这些数据做实验得出的结果往往是不正确或者是片面的。
发明内容
本发明的目的在于提高感知年龄数据库的精准度,提出一种基于迭代式与交互式感知年龄数据库的清洗方法,该方法利用迭代式与交互式的方法来对感知年龄数据库清洗,能够有效清洗感知年龄数据库中的脏数据,使得年龄数据库的精准度更高。
为了达到上述目的,本发明采用的技术方案如下:
一种基于迭代式与交互式感知年龄数据库的清洗方法,具体步骤如下:
(1)、将生理年龄数据库利用支持向量机,即SVM,训练得到分类器A,再利用分类器A识别感知年龄数据库;
(2)、将识别正确的样本数加入到生理年龄数据库中,构成新的训练集,将新的训练集利用SVM训练得到分类器B,再利用分类器B识别分类器A识别错误的样本;
(3)、重复循环步骤(2);
(4)、年龄识别准确率的波动范围在0.1%以内则停止迭代,否则返回步骤(3);
(5)、停止迭代后,将剩下识别错误的样本采用人机交互的方式修正样本的年龄标签,修正后,从人的主观视觉感知角度而言,更贴近其生理年龄;
(6)、将修正后的样本重复步骤(1)、(2)、(3)、(4)、(5);
(7)、样本全部识别正确,则停止循环,否则返回步骤(6);
(8)、将所有识别正确的样本减去步骤(2)中加入的生理年龄数据库,则剩下的就是经过迭代式与交互式清洗和修改后的感知年龄数据库。
上述步骤(1)中的利用SVM训练方法,就是根据选定的核函数对样本集的所有特征向量进行计算,构造一个是样本可分的特征空间,其具体步骤如下:
(1-1)、核函数的选定:采用的核函数为Gauss函数:
(1-2)、根据选定的核函数分别计算每一个分类器中每一个特征向量的特征相关值;
(1-3)、根据这些特征相关值计算协方差矩阵空间;
(1-4)、对这个协方差矩阵空间进行镜像变换,即将一个向量变换为由一个超平面反射的镜像;
(1-5)、得到协方差矩阵以及其对应的超平面矩阵,根据这两个矩阵分别计算每个特征的特征系数,并将特征系数对协方差矩阵进行缩放;
(1-6)、获得模型参数。
上述步骤(5)中通过人机交互的方式修正样本的年龄标签,具体方法是:参考分类器给出的年龄识别结果,再依据人眼的年龄感知对样本的年龄标签重新标注,则重新标注后的样本就是修正后的样本。
与现有技术相比,本发明方法具有如下优点:
本发明方法利用迭代式与交互式的方法来对感知年龄数据库清洗,能够有效清洗感知年龄数据库中的脏数据,使得年龄数据库的精准度更高。
附图说明
图1是本发明方法的流程图。
图2是展示了五张生理年龄数据库中的样本,样本正下方对应着人的生理年龄。
图3是展示了五张感知年龄数据库中的样本,样本正下方对应着人的感知年龄。
图4是本发明随着迭代次数的增加,年龄识别准确率的变化情况。
具体实施方式
下面结合附图对本发明的实施例作进一步详细说明。
本发明进行的仿真实验是在CPU为3.4GHz、内存为8G的PC测试平台上编程实现。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711170178.0/2.html,转载请声明来源钻瓜专利网。