[发明专利]一种挖掘用户年龄样本的方法和装置有效
| 申请号: | 201410635735.1 | 申请日: | 2014-11-05 |
| 公开(公告)号: | CN104376064B | 公开(公告)日: | 2018-01-19 |
| 发明(设计)人: | 罗维;邓宇;向园;刘通 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京润泽恒知识产权代理有限公司11319 | 代理人: | 刘祥景 |
| 地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 挖掘 用户 年龄 样本 方法 装置 | ||
技术领域
本发明涉及互联网信息技术领域,特别是涉及一种挖掘用户年龄样本的方法和装置。
背景技术
在互联网信息领域,用户年龄是精准广告定向和个性化推荐等互联网服务的重要输入特征,也是DMP(数据管理平台,Data Management Platform)的必要组成部分。
现有常用的预测用户年龄的方法,通常采用监督学习方式对用户年龄样本进行训练得到相应的年龄预测模型。对于监督学习方式而言,训练样本的数量和质量非常重要,若训练样本的数量选取不当或者训练样本有误,将直接影响年龄预测模型的精度和准确度。
传统的挖掘用户年龄样本的方法往往通过问卷调查、用户注册等方式让用户填写年龄信息。然而,年龄是一种隐私信息,尤其对女性而言,她们更是不愿意透漏自己的年龄;因此,大多数用户为了保护自己的隐私,可能会不填年龄或者有意错填年龄,这给大规模收集用户年龄样本带来较大的困难,也给年龄维度的监督学习方式带来用户年龄样本方面的难题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种挖掘用户年龄样本的方法和装置。
依据本发明的一个方面,提供了一种挖掘用户年龄样本的方法,包括:
获取用户样本的教育信息;其中,所述教育信息包括:用户样本在学习阶段的年份信息;
依据所述用户样本在学习阶段的年份信息,挖掘得到所述用户样本的年龄值。
可选地,所述依据所述用户样本在学习阶段的年份信息,挖掘得到所述用户样本的年龄值的步骤,包括:
依据所述用户样本在各学习阶段的年份信息和对应学习阶段的年龄经验值,得到各学习阶段对应的年龄估计值;
对所有学习阶段对应的年龄估计值进行单变量的数理统计,得到所述用户样本的年龄值。
可选地,所述对所有学习阶段对应的年龄估计值进行单变量的数理统计,得到所述用户样本的年龄值的步骤,包括:
统计所有学习阶段对应年龄估计值的总体方差值;
在所述总体方差值不超过方差阈值时,统计所有学习阶段对应年龄估计值的期望值,并将该期望值作为所述用户样本的年龄值;其中,所述方差阈值用于评估用户样本的真实性。
可选地,所述在学习阶段的年份信息包括:入学年份信息,所述学习阶段的年龄经验值包括:学习阶段的入学年龄经验值,则所述依据所述用户样本在各学习阶段的年份信息和对应学习阶段的年龄经验值,得到各学习阶段对应的年龄估计值的步骤,包括:
计算当前年份与所述用户样本在某学习阶段的入学年份信息的第一差值,对所述第一差值与该学习阶段的入学年龄经验值进行求和,得到该学习阶段对应的年龄估计值。
可选地,所述方差阈值包括从5到20的所有整数。
可选地,所述方法还包括:
获取所述用户样本的年龄信息;
依据所述用户样本的年龄信息和在学习阶段的年份信息,挖掘得到所述用户样本的年龄值。
可选地,所述方法还包括:
依据所述用户样本的年龄信息,估计得到相应的第一年龄估计值;
依据所述在学习阶段的年份信息,估计得到各学习阶段对应的年龄估计值;
当所述第一年龄估计值与各学习阶段对应的年龄估计值的差距超过阈值时,判定所述用户样本不真实。
依据本发明的另一方面,提供了一种挖掘用户年龄样本的装置,包括:
获取模块,用于获取用户样本的教育信息;其中,所述教育信息包括:用户样本在学习阶段的年份信息;及
挖掘模块,用于依据所述用户样本在学习阶段的年份信息,挖掘得到所述用户样本的年龄值。
可选地,所述挖掘模块,包括:
估计子模块,用于依据所述用户样本在各学习阶段的年份信息和对应学习阶段的年龄经验值,得到各学习阶段对应的年龄估计值;
数理统计子模块,用于对所有学习阶段对应的年龄估计值进行单变量的数理统计,得到所述用户样本的年龄值。
可选地,所述数理统计子模块,包括:
第一统计单元,用于统计所有学习阶段对应年龄估计值的总体方差值;
第二统计单元,用于在所述总体方差值不超过方差阈值时,统计所有学习阶段对应年龄估计值的期望值,并将该期望值作为所述用户样本的年龄值;其中,所述方差阈值用于评估用户样本的真实性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410635735.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于制造可逆固体氧化物电池的改良方法
- 下一篇:一种图像拼接方法与系统





