[发明专利]一种基于网格密度的消费者分类标签融合过滤方法有效

专利信息
申请号: 202110258151.7 申请日: 2021-03-09
公开(公告)号: CN113157816B 公开(公告)日: 2023-05-16
发明(设计)人: 左毅;赵力澄;孙卓;矢田胜俊 申请(专利权)人: 大连海事大学
主分类号: G06F16/28 分类号: G06F16/28;G06F16/2457
代理公司: 大连东方专利代理有限责任公司 21212 代理人: 姜玉蓉;李洪福
地址: 116026 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 网格 密度 消费者 分类 标签 融合 过滤 方法
【说明书】:

发明提供一种基于网格密度的消费者分类标签融合过滤方法,该方法主要包括三个处理阶段,具体包括:对消费者数据样本进预处理,构建样本集;消费者每个特征维度的划分和网格构建处理;网格中分类标签的融合及过滤处理;最后,利用机器学习方法,应用融合过滤后的数据集进行消费者分类。本发明针对消费者分类中的标签重叠和数据偏斜问题提出了一个行之有效的解决方法,使原样本集在标签重构处理后进行的消费者分类中可以获得更高的分类精度。

技术领域

本发明涉及行为识别技术领域,具体而言,尤其涉及一种基于网格密度的消费者分类标签融合过滤方法。

背景技术

在消费者细分领域,数据挖掘和机器学习的分类技术被广泛的使用。然而,在实际的问题中,由于消费者在购物过程中受环境、主观认知和行为等因素影响,但在数据采集中不能100%的对所有影响因素进行度量。因此,不同类别所属的消费者样本集在某些特征上具有相似甚至相同的表现特征,从而使得消费者标签特征重叠,导致消费者的识别分类效果不佳,无法满足实际需求。同时,相关的研究也表明,分类器划分错误往往集中在标签特征空间的边界区域,而这正是本发明解决的类标签重叠问题。

2005年,Prati和Batista等通过人工生成重叠数据对类标签重叠问题进行了系统分析,结果表明类标签重叠的程度与类数据特征不均衡有紧密的联系。在消费者细分问题中,一般会对消费者购买行为进行识别分类,其中就经常存在着购买样本和非购买样本的两种数据量相差较大的标签不均衡问题。此时,小样本中的消费者购买识别分类精度偏低,很难对消费者的购买决策作出有效判断。Garaia和Mollineda等将多个不同类型的分类器,包括K-NN、MLP、NB、RBF和C4.5等,应用在标签重叠区域的偏斜数据集上,实验结果表明基于全局学习的分类器仅仅有助于类标签重叠区域的大类样本的分类精度提升。

现有文献经常讨论不平衡数据集的解决方案,如数据级和算法级方法。过采样和欠采样是最常见的数据级技术,通过调整不同类之间的平衡率来实现类别间的均衡分布;在标签重叠问题研究中,主要有两种不同的解决思路,一种是将重叠区域的样本合并为一个新的类,先进行多分类,然后再针对新的类构建模型进行二分类;另一种是对重叠区域和非重叠区域样本进行分割学习,构建架不同的分类模型。然而,在现有的这两种思路的解决方法本质上都是针对不同的分类样本空间构建不同的分类器,提升了问题复杂度,在具有高不平衡比和类重叠的消费者行为数据集中,这样的方法可能并不能很好地解决消费者细分中的标签重叠问题。

发明内容

根据上述提出并不能很好地解决消费者细分中的标签重叠问题的技术问题,而提供一种基于网格密度的消费者分类标签融合过滤方法。本发明主要利用一种基于网格密度的消费者分类标签融合过滤方法,其特征在于,包括以下步骤:

步骤S1:对消费者样本数据预处理:将每一个消费者数据作为数值实验的一个样本;根据所述消费者数据构建消费者分类样本集:

其中,N表示样本总量,类别yi∈{1,…,C},C(C≥2)表示样本类别;Xi表示样本i的特征,表示样本特征维度,表示样本i的第h个特征;令表示所有样本特征k取值的矩阵;

步骤S2:根据步长对特征空间进行网格划分并构建初始网格;

根据消费者样本特征数据以及网格步长进行网格划分,并构建出划分后的初始网格;

步骤S3:对所述初始网格中的分类标签进行融合及过滤处理;

根据所述初始网格为基本网格单元,计算每个网格中所含标签样本的类密度δ与隶属度α,设定参数网格隶属度阈值θ,根据所述阈值θ识别所述每个网格的隶属类,当网格中某类隶属度大于等于该阈值时,则表示该类为网格的隶属类;

步骤S4:通过机器学习方法,应用融合过滤后的数据集进行消费者分类。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海事大学,未经大连海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110258151.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top