[发明专利]一种特征筛选方法、装置、终端和介质有效
申请号: | 201711283609.4 | 申请日: | 2017-12-07 |
公开(公告)号: | CN108052568B | 公开(公告)日: | 2020-11-10 |
发明(设计)人: | 邰阳;路远;杨丽霞;林惠娟 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/216;G06F40/284 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 特征 筛选 方法 装置 终端 介质 | ||
本发明实施例公开了一种特征筛选方法、装置、终端和介质,涉及互联网信息处理技术领域。该方法包括:获取至少一个用户的数据;从所述数据中确定至少一个关键词;根据所述关键词的户频,从至少一个所述关键词中确定特征词,其中户频表示数据中包含所述关键词的用户的数量。本发明实施例提供一种特征筛选方法、装置、终端和介质,实现了对获取的数据进行自动的特征筛选,从而提高筛选过程的时效性和通用性。
技术领域
本发明实施例涉及互联网信息处理技术领域,尤其涉及一种特征筛选方法、装置、终端和介质。
背景技术
互联网风控的一个核心问题在于,如何针对一类风险快速筛选核心风险特征,以此来区分风险用户和正常用户。
现有技术中,通常是通过人工对用户反馈的风险数据进行分析,筛选出核心风险特征,利用核心风险特征对风险用户进行识别。
发明人在实现本发明的过程中,发现现有技术存在如下问题:在上述方法中,因为对人工依赖过多,人工处理速度有限,且风险数据量大,所以时效性差;又因为针对不同行业的风险数据,需要选用不同行业内的人员进行数据的筛选,所以通用性差。
发明内容
本发明实施例提供一种特征筛选方法、装置、终端和介质,以实现对获取的数据进行自动的特征筛选,从而提高筛选过程的时效性和通用性。
第一方面,本发明实施例提供了一种特征筛选方法,该方法包括:
获取至少一个用户的数据;
从所述数据中确定至少一个关键词;
根据所述关键词的户频,从至少一个所述关键词中确定特征词,其中户频表示数据中包含所述关键词的用户的数量。
进一步地,获取至少一个用户的数据包括:
获取风险种子集合中风险用户提交的数据,其中所述风险种子集合是至少一个风险用户的集合。
进一步地,根据所述关键词的户频,从至少一个所述关键词中确定特征词包括:
根据所述关键词的户频和词频,从至少一个所述关键词中确定针对每个所述用户的特征词,其中所述词频是所述关键词在每个所述用户的数据中出现的频率。
进一步地,根据所述关键词的户频和词频,从至少一个所述关键词中确定针对每个所述用户的特征词包括:
根据所述关键词的户频和所述关键词针对至少一个所述用户的各词频,确定筛选阈值;
根据所述关键词的户频和所述关键词针对任一所述用户的词频,对该用户的数据中的所述关键词进行打分;
若所述关键词的打分结果大于所述筛选阈值,则将所述关键词确定为所述用户的特征词。
进一步地,根据所述关键词的户频和所述关键词针对至少一个所述用户的各词频,确定筛选阈值包括:
按照如下公式确定筛选阈值:
threhold=N×mean(df)×mean(uf)
其中,threhold为筛选阈值,mean表示加权平均计算,df为每个所述关键词在每个所述用户的数据中的词频,uf为每个所述关键词在由所述用户构成的用户集合中的户频,N为调整参数。
进一步地,根据所述关键词的户频和所述关键词针对任一所述用户的词频,对该用户的数据中的所述关键词进行打分包括:
按照如下公式对所述用户的数据中的所述关键词进行打分:
scorei=dfi×ufi
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711283609.4/2.html,转载请声明来源钻瓜专利网。