[发明专利]一种数据处理方法、装置和电子设备有效
申请号: | 201710509026.2 | 申请日: | 2017-06-28 |
公开(公告)号: | CN107330459B | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 杨帆;王耀晖;金宝宝 | 申请(专利权)人: | 联想(北京)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q30/02 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 电子设备 | ||
本申请提供了一种数据处理方法、装置及电子设备,在获取到多个用户标识关联的历史行为数据,可以筛选当前标注有属性标志的至少一个第一用户标识,并将该至少一个用户标识关联的历史行为数据构成第一数据集,其他历史行为数据构成第二数据集,之后,本申请利用该第一数据集,按照协同训练算法,获得第二数据集中多个第二用户标识对应的属性标志。由此可见,本申请通过对少量标注有属性标志的历史行为数据进行训练扩展,自动且准确得到了大量用户标识对应的属性标志,无需人工一一标注各用户标识的属性标志,降低了人力成本,且大大提高了工作效率。
技术领域
本申请主要涉及用户属性预测应用领域,更具体地说是涉及一种数据处理方法、装置和电子设备。
背景技术
如今,随着网络技术的高速发展,在开发新产品或业务之前以及在使用过程中,通常会对用户的性别、年龄、收入、兴趣等属性信息进行研究,以便知晓并满足用户的潜在需求,并据此完成新产品或业务的功能完善,提高用户使用新产品或业务的体验感受。
现有技术中,通常是通过注册用户填写的资料,得知用户属性信息,然而,由于用户避免个人信息泄露,经常会胡乱填写错误资料或不填写,将导致得到用户属性信息不准确。
为了得到准确地用户属性信息,目前提出人工标注的方式来获得用户属性信息,但通常情况下,企业并不知道用户的性别、年龄、收入等属性信息,要想获得大批量的用户属性信息,需要付出大量的人力、物力,过程非常复杂,工作效率很低。
发明内容
有鉴于此,本发明提供了一种数据处理方法、装置及电子设备,通过对标注有属性标志的少量用户标识关联的行为数据进行训练扩展,得到可靠且准确的大量标注属性标志的用户标识关联的行为数据,无需人工一一标注,大大节省了标注成本,且提高了属性标注可靠性以及准确性,进而提高了属性预测的效率以及准确性。
为了实现上述发明目的,本申请提供了以下技术方案:
一种数据处理方法,所述方法包括:
获取多个用户标识关联的历史行为数据;
筛选当前标注有属性标志的至少一个第一用户标识;
将所述至少一个第一用户标识关联的历史行为数据构成第一数据集,并将除所述第一数据集之外的其他历史行为数据构成第二数据集;
利用所述第一数据集,按照协同训练算法,获得所述第二数据集中多个第二用户标识对应的属性标志。
优选的,在所述筛选当前标注有属性标志的至少一个第一用户标识之前,所述方法还包括:
获取所述历史行为数据的第一视图特征和第二视图特征;
利用所述第一视图特征和所述第二视图特征,生成所述历史行为数据关联用户标识对应的特征数据;
所述筛选当前标注有属性标志的至少一个第一用户标识,包括:
验证多个用户标识对应的特征数据中是否包含属性标志;
基于验证结果,确定具有属性标志的特征数据对应的第一用户标识。
优选的,所述利用所述第一数据集,按照利用协同训练算法,获得所述第二数据集中多个第二用户标识对应的属性标志,包括:
分别对所述第一数据集和所述第二数据集进行备份,得到相应的第一备份数据集和第二备份数据集;
利用第一数据集,按照第一类算法,对所述第二数据集中多个第二用户标识关联的特征数据进行属性预测,确定至少一个第二用户标识对应的属性标志,更新所述第一备份数据集中与确定的属性标志对应的第二用户标识的特征数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联想(北京)有限公司,未经联想(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710509026.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:铠装防弹橡胶软管及制作方法
- 下一篇:一种预警准确的自然灾害预警系统