[发明专利]一种用户类型识别方法及装置有效
申请号: | 201610058562.0 | 申请日: | 2016-01-28 |
公开(公告)号: | CN107015993B | 公开(公告)日: | 2019-12-06 |
发明(设计)人: | 潘钢;王远伟 | 申请(专利权)人: | 中国移动通信集团上海有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 11291 北京同达信恒知识产权代理有限公司 | 代理人: | 黄志华<国际申请>=<国际公布>=<进入 |
地址: | 200060 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用户 类型 识别 方法 装置 | ||
本发明涉及计算机技术领域,尤其涉及一种用户类型识别方法及装置,包括:首先获取用户的指标值,然后根据指标值及预先得到的阈值,通过识别模型识别所述用户的类型,其中所述阈值是对样本每个指标进行分组,根据每个分组的组值得到的。该方法在确定阈值时,是通过对样本每个指标进行分组,然后根据每个分组的组值来得到指标对应的阈值,因而该方法对样本进行分类,得到多个分组,并分别确定每个分组对应的组值,从而可以基于合理的分组结果,准确有效地确定指标对应的阈值。
技术领域
本发明涉及计算机技术领域,尤其涉及一种用户类型识别方法及装置。
背景技术
随着互联网的发展,使用手机的用户越来越多,造成商家或者非法组织发送垃圾短信的数量越来越多。一个短信用户的类型,例如可以划分为普通用户,优质用户和垃圾短信用户,因而如何识别一个短信用户的类型,成为现代短信通信中的一个重要课题。
图1示出了现有技术中,通过决策树模型识别短信用户类型的示意图,该模型可以很好地利用指标(如图1中的“给陌生人发送的短信数量占比”、“所发短信群体陌生人占的比例”、“网龄”、“朋友圈人数”)及每个指标对应的阈值,对现网用户进行用户类型的识别。其中,使用该决策树模型时,最为关键的是如何对每个指标对应的阈值(如图1中的“85%”、“78%”、“3年”、“20人”)进行选择。
目前在确定指标对应的阈值时,主要通过人工经验或者是根据短信用户样本中的某个指标的平均值来确定。该种方式会造成阈值与实际数据之间的匹配程度不高,进而无法准确有效地使用该阈值判别短信用户类型。
发明内容
本发明提供一种用户类型识别方法及装置,用以解决现有技术中无法准确有效地确定用户类型识别模型中的阈值的技术问题。
一方面,本发明实施例提供一种用户类型识别方法,包括:
获取用户的指标值;
根据所述指标值及预先得到的阈值,通过识别模型识别所述用户的类型;
所述阈值是对样本每个指标进行分组,根据每个分组的组值得到的。
可选地,所述基于所述指标值,利用识别模型识别所述用户的类型之前,还包括:
针对样本中的每个指标,根据所述样本在所述指标的取值,对所述样本进行排序;
根据每个样本对应的标签及当前分组阈值,对排序后的样本进行分组,得到第一分组结果,确定所述第一分组结果对应的第一组熵总和;
将增加一步长值之后的分组阈值作为当前分组阈值,根据每个样本对应的标签及当前分组阈值,对排序后的样本进行分组,得到第二分组结果,确定所述第二分组结果对应的第二组熵总和;
若第一组熵总和与第二组熵总和之间的差值不大于停止阈值,则确定所述第二分组结果中每个分组的组值;
根据每个分组的组值,确定所述指标对应的阈值。
可选地,所述对排序后的样本进行分组,包括:
按顺序选取排序后的样本中n个未分组的样本,生成样本集合;
根据所述样本集合中每个样本的标签,确定每类标签的样本数;
判断样本数最多的一类标签的比例是否小于当前分组阈值;
若对应样本数最多的一类标签的比例不小于当前分组阈值,则将所述样本集合中的所有样本划分到一个分组,并返回到按顺序选取排序后的样本中的n个未分组的样本,生成样本集合的步骤;
若对应样本数最多的一类标签的比例小于当前分组阈值,则按顺序增加m个未分组的样本到所述样本集合,并返回到根据所述样本集合中每个样本分别对应的标签,确定每类标签对应的样本数的步骤;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团上海有限公司,未经中国移动通信集团上海有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610058562.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:口罩自助配发装置及系统
- 下一篇:一种单孔可调自动落杯器