[发明专利]一种基于网格密度的消费者分类标签融合过滤方法有效
申请号: | 202110258151.7 | 申请日: | 2021-03-09 |
公开(公告)号: | CN113157816B | 公开(公告)日: | 2023-05-16 |
发明(设计)人: | 左毅;赵力澄;孙卓;矢田胜俊 | 申请(专利权)人: | 大连海事大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/2457 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 姜玉蓉;李洪福 |
地址: | 116026 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网格 密度 消费者 分类 标签 融合 过滤 方法 | ||
1.一种基于网格密度的消费者分类标签融合过滤方法,其特征在于,包括以下步骤:
S1:对消费者样本数据预处理:将每一个消费者数据作为数值实验的一个样本,每个消费者样本数据包含有消费者样本特征数据和消费者样本类别数据;根据所述消费者数据构建消费者分类样本集:
其中,N表示样本总量,类别yi∈{1,…,C},C(C≥2)表示样本类别;Xi表示样本i的特征,表示样本特征维度,表示样本i的第h个特征;令表示所有样本特征k取值的矩阵;
S2:根据步长对特征空间进行网格划分并构建初始网格;
根据消费者样本特征数据以及网格步长进行网格划分,并构建出划分后的初始网格;
S3:对所述初始网格中的分类标签进行融合及过滤处理;
根据所述初始网格为基本网格单元,计算每个网格中所含标签样本的类密度δ与隶属度α,设定参数网格隶属度阈值θ,根据所述阈值θ识别所述每个网格的隶属类,当网格中某类隶属度大于等于该阈值时,则表示该类为网格的隶属类;
S4:通过机器学习方法,应用融合过滤后的数据集进行消费者分类。
2.根据权利要求1所述的一种基于网格密度的消费者分类标签融合过滤方法,其特征在于,
根据步长对特征空间进行网格划分并构建初始网格,所述步骤S2中,具体步骤如下:
S21:对所述特征空间进行划分;根据所述消费者样本数据确定特征维度k和输入步长参数d,对k维特征的每一特征进行等间距划分,将全空间划分为等体积的网格单元;其中,d表示网格步长,即每个特征的网格边的长度;
S22:构建初始网格;通过步长d表示出每个特征所有的取值段集合,对划分后不同特征的取值段集合,分别取其中一段进行组合,得到一个包含k个元素来自k个特征的取值段集合,即表示为一个网格;
3.根据权利要求1所述的一种基于网格密度的消费者分类标签融合过滤方法,其特征在于,
所述步骤S3中,具体步骤如下:
S31:计算每个初始网格的α和δ值,其计算式分别如下:
其中,I()表示指示函数,隶属度α表示网格中某一类标签样本占网格中所有样本的比率,用于衡量该网格隶属于该类别标签的概率;αj表示j类在网格内的隶属度,αj越大表明网格隶属于j类的概率越大;类密度δ表示网格内某一类标签样本在网格中的数量,表示该类别在网格中的聚集程度;δj表示j类在网格内的密度,表示j类样本在网格中的数量;
S32:设定参数网格隶属度阈值θ,遍历所有网格,确定每个网格的隶属类;当网格中隶属度和隶属度阈值满足maxα=αj,αj≥θ时,则j类为该网格中的隶属类;若某网格中maxα=αj,αj<θ时,则无法确定网格的隶属类,此时,该网格需要进一步处理;根据隶属度及隶属度阈值无法确定网格的隶属类时,该网格需要与周围相邻的网格分别进行合并,计算并筛选出其与每一个相邻网格合并后所得网格的最大隶属度,选取所有合并网格中隶属度值最大的网格,据隶属度阈值确定该合并后网格的隶属类,即max{α1,…,αU}=αu,u∈{1,…,U},U为其相邻网格数;若满足条件则停止合并;否则,该网格再次与周围相邻网格进行合并,直到能够确定出合并后网格的隶属度为止;
S33:当所有网格均确定出网格的隶属类后,标记相同隶属类的网格组成联通区域,遍历整个数据集,将网格的隶属类标记到其内样本数据集,得到新样本集:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海事大学,未经大连海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110258151.7/1.html,转载请声明来源钻瓜专利网。