[发明专利]一种移动终端用户性别的预测方法、服务器和系统有效
申请号: | 201611089521.4 | 申请日: | 2016-11-30 |
公开(公告)号: | CN106776925B | 公开(公告)日: | 2020-07-14 |
发明(设计)人: | 路瑶;张夏天 | 申请(专利权)人: | 腾云天宇科技(北京)有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/906;G06K9/62 |
代理公司: | 北京思睿峰知识产权代理有限公司 11396 | 代理人: | 谢建云;赵爱军 |
地址: | 100027 北京市东城区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 移动 终端 用户 性别 预测 方法 服务器 系统 | ||
1.一种移动终端用户性别的预测方法,适于在服务器中执行,所述服务器中预先存储有多个移动终端的第一设备信息作为第一模型样本A1,并根据该第一设备信息创建了用于预测移动终端用户性别的分类模型,该方法包括:
步骤1:收集多个待测移动终端的第二设备信息作为整体待测样本B,并从中选取一部分作为第一待测样本B1;
步骤2:将所述第一模型样本A1和第一待测样本B1进行聚类,并从聚类结果中选出所述第一模型样本A1的移动终端数目占比在一定范围的类,使选出的类中两种样本均匀分布;
步骤3:从所选出的类中取出第一模型子样本A11和第一待测子样本B11,并从所述第一模型子样本A11中分别选取一部分样本作为训练样本和校验样本,对构建好的分类模型进行训练和校验,所述校验样本能够得到所述第一模型子样本A11的性别预测准确度,该性别预测准确度近似作为所述第一待测子样本B11的性别预测准确度;
步骤4:根据所述第一待测子样本B11的第二设备信息及训练好的分类模型,预测得到该第一待测子样本B11中每个移动终端的用户性别;
步骤5:若所述第一模型子样本A11的性别预测准确度小于第五阈值,则将该第一待测子样本B11继续保留在整体待测样本B中,反之则将已经预测过用户性别的第一待测子样本B11从整体待测样本B中剔除,并将其加入到所述第一模型样本A1中,得到第二模型样本A2;
步骤6:从剔除了第一待测子样本B11后的整体待测样本B中选取第二待测样本B2;
步骤7:在所述第二模型样本A2和第二待测样本B2的基础上,重复上述步骤2-4,以预测得到第二待测子样本B22中移动终端的用户性别;以及
步骤8:重复上述步骤5-7直到处理了整体待测样本B中的所有移动终端为止;
其中,所述第一模型样本A1的第一设备信息包括其中每个移动终端的用户性别和应用信息,所述根据第一模型样本A1的第一设备信息创建分类模型的方法包括步骤:
通过组合该第一模型样本A1中每个移动终端的用户性别和应用信息,生成应用列表;
从所述应用列表中统计每个应用所对应的移动终端的女性用户数目和男性数目,并计算得到每个应用的性别倾向指数;
将该样本A1中的所有应用按照性别倾向指数的大小划分为多个分组,并计算该样本A1中每个移动终端的应用在各分组内的单组性别维度值;以及
根据所述每个移动终端的用户性别及其单组性别维度值,构建所述用于预测用户性别的分类模型。
2.如权利要求1所述的方法,其中,所述构建所述分类模型的步骤包括:
根据所述单组性别维度值计算得到该移动终端的整体性别维度值,所述整体性别维度值包括偏女性维度值和偏男性维度值;以及
根据所述每个移动终端的用户性别及其整体性别维度值,构建所述分类模型。
3.如权利要求2所述的方法,其中,所述步骤1包括:
计算所述整体待测样本B中的每个待测移动终端的各个单组性别维度值和整体性别维度值;以及
计算该整体待测样本B每个待测移动终端的第一置信度和第二置信度,并从该整体待测样本B中选取第一置信度大于第一阈值且第二置信度大于第二阈值的样本,作为所述第一待测样本B1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾云天宇科技(北京)有限公司,未经腾云天宇科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611089521.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:网页页面预览方法及装置
- 下一篇:改善机器人对话时的应答能力的方法及系统