[发明专利]一种基于多阶特征组合的种子人群拓展方法有效
| 申请号: | 202110270754.9 | 申请日: | 2021-03-12 |
| 公开(公告)号: | CN112950276B | 公开(公告)日: | 2022-03-29 |
| 发明(设计)人: | 苏同;郭田奇 | 申请(专利权)人: | 华扬联众数字技术(深圳)有限公司 |
| 主分类号: | G06Q30/02 | 分类号: | G06Q30/02 |
| 代理公司: | 北京和信华成知识产权代理事务所(普通合伙) 11390 | 代理人: | 胡剑辉 |
| 地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 特征 组合 种子 人群 拓展 方法 | ||
1.一种基于多阶特征组合的种子人群拓展方法,其特征在于:包括以下步骤:
步骤S1、接收广告客户提供的人群数据,并对所述人群数据进行标签量化获得种子拓展样本集;
步骤S2、依次对种子拓展样本集进行特征量化实现单阶特征提取,并对所有所述单阶特征实现编码组合获得种子拓展组合特征集;
步骤S3、筛选种子拓展组合特征集获得最优种子拓展组合特征,并基于最优种子拓展组合特征建立种子人群拓展模型;
所述步骤S3中,利用多目标搜索策略筛选种子拓展组合特征集获得最优种子拓展组合特征,具体方法为:
将种子拓展组合特征集中第二多阶特征替换所述种子单阶样本集和非种子单阶样本集所有单阶特征建立新映射获得种子多阶样本集和非种子多阶样本集;
利用种子多阶样本集中各单个样本间的欧式距离获得种子多阶样本集的集合内度,所述集合内度的计算公式为:
利用种子多阶样本集中各单个样本与非种子多阶样本集中各单个样本的欧氏距离获得种子多阶样本集的集合外度,所述集合外度的计算公式:
利用遗传算法将集合内度和集合外度联合作为目标函数建立最优多阶特征搜索模型;
其中,Vk、Vj分别为种子多阶样本集中第k、j个单个样本,Vs为非种子多阶样本集中单个样本,M为种子多阶样本集的样本总数,N为非种子多阶样本集总数,T为转置运算符;
所述步骤S3,基于最优种子拓展组合特征建立种子人群拓展模型:
将最优种子拓展组合特征替换所述种子多阶样本集和非种子多阶样本集所有多阶特征建立新映射获得种子最优特征样本集和非种子最优特征样本集;
在所述种子最优特征样本集和非种子最优特征样本集构成的混合集合中依次随机抽取60%和40%的数据汇总作为训练集和测试集;
将训练集和测试集运用在多种机器学习聚类算法上建模获得多组种子人群拓展模型,并在多组种子人群拓展模型选择出最优种子人群拓展模型。
2.根据权利要求1所述的一种基于多阶特征组合的种子人群拓展方法,其特征在于:所述步骤S1中,所述人群数据为访问广告客户门户的日志数据,所述人群数据的种子标签包括为1和0,基于logistic回归函数对人群数据进行标签量化,具体方法为:
统计所有所述人群数据中访问广告客户门户的日志时长,并代入logistic回归函数计算获得人群数据的种子标签概率,logistic回归函数公式为:
其中,t为时长数据;
将所述种子标签概率量化为种子标签1和0:
若种子标签概率大于logistic回归函数分界线,则种子标签为1;
若种子标签概率小于logistic回归函数分界线,则种子标签为0。
3.根据权利要求2所述的一种基于多阶特征组合的种子人群拓展方法,其特征在于:所述种子拓展样本集包括种子样本集和非种子样本集,获得种子拓展样本集的具体方式为:
依次汇总种子标签为1的人群数据构成种子样本集,汇总种子标签为0的人群数据构成非种子样本集。
4.根据权利要求3所述的一种基于多阶特征组合的种子人群拓展方法,其特征在于:所述步骤S2中,对种子拓展样本集进行特征量化的具体方式为:
依次对所述种子样本集和非种子样本集中的进行特征提取获得第一连续性特征和第二离散型特征;
将所述第一连续性特征进行等频分桶转化为第一离散型特征,并同时第一离散特征和第二离散特征进行混合降维获得第一单阶特征,降维公式为:
其中,y(i)为第一单阶特征的特征值,i为离散型特征,x(i)为离散型特征的特征值,p(i)为离散型特征的特征频率,α为离散型特征的特征频率阈值,m为常数;
将第一单阶特征替换所述种子样本集和非种子样本集所有特征建立新映射获得种子单阶样本集和非种子单阶样本集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华扬联众数字技术(深圳)有限公司,未经华扬联众数字技术(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110270754.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种医疗用紧急供氧装置
- 下一篇:一种基于数字媒体的播放排期智能生成方法





