[发明专利]基于关联规则的社交网络用户信息填充方法有效
申请号: | 202010075197.0 | 申请日: | 2020-01-22 |
公开(公告)号: | CN111400571B | 公开(公告)日: | 2021-11-19 |
发明(设计)人: | 王宏志;姜楠;王春楠 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9536;G06F16/35;G06F40/289;G06Q50/00;G06N20/00 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 张利明 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 关联 规则 社交 网络 用户信息 填充 方法 | ||
基于关联规则的社交网络用户信息填充方法,涉及网络技术领域。本发明是为了解决社交网络用户信息填充的准确性差的问题。本发明基于SCRAPY爬虫框架获取用户的在网络社交平台上的个人信息和每个用户在网络社交平台上发布的信息;利用ICTCLAS系统对每个有效用户在社交网络平台发布的信息进行分词,并提取每个有效用户的关键词;利用FP‑Growth算法对有效用户的关键词进行关联,利用强关联规则集合将信息缺失的用户与无信息缺失的用户进行不同关键词关联,利用与其关联的无信息缺失用户的信息对信息缺失用户缺失的信息进行填充,或者使用补充算法KNNI对信息缺失用户缺失的信息进行填充。本发明适用于网络平台用户信息填充使用。
技术领域
本发明涉及网络技术领域。
背景技术
近年来,特别是因特网和社交网络的显著进步和普及,社交网络在国民日常生活中的重要应用地位日渐凸显。无论是明星大腕还是普通的网民,都在使用这些社交网络获取有用消息和信息,发布其个人状态以及与其他用户通信。这使得其中可用于分析与研究的数据在不断累积。获取数据的能力与技术手段使得社交网络分析(SNA)和数据挖掘(DM)技术可以很好地应用于改善商业进程,并为用户开发具有针对性的服务。在社交网络数据的基础上,现在已完成了以下任务:建立推荐系统,客户互动机制,产品和服务的广告和推广,专家招聘与检索,趋势监控等。在中国,新浪微博目前是许多社交网络应用程序中用户数量最多的。随着微博用户数量的迅猛增长,微博用户的个人信息显得尤为重要,充满商业价值。
然而,研究发现显示,所有类型的社交网络分析中最常见的问题之一是数据质量差,这使他们的分析复杂化。这其中,数据质量差主要是数据在获取或处理过程中的缺失和数据来源本身就不完整导致的。影响数据质量的主要因素是社交网络中的数据很容易在获取和存储阶段产生缺失(任何字段都可能缺失,例如“年龄/出生日期”,“性别”,“婚姻状况”)。由于社交网络本身的复杂性,数据缺失是很容易产生且难以避免的。
目前缺失数据的填充方法可以分为两个大类:统计型方法和机器学习型方法。缺失数据填充是基于使用一些统计或机器学习技术从所选观察数据中产生估计来代替所缺失的值。最简单的统计方法分别是连续和离散变量的均值和模式估算。此外,它们通常用作基线插补方法。在机器学习方法中,缺失值填充被称为模式分类任务,其中缺失属性被视为分类模型的目标输出,其余完整属性是用于训练和测试模型的输入特征。
现有的数据填充算法都是通过缺失数据集本身,挖掘其中的信息来进行数据填充,并不参考其他的信息与知识库。这对于很多特征不明显的数据集来说,处理的效果不够理想。在Mark Huisman关于社交网络简单数据填充的论文中,他研究使用一些简单的数据处理方式来处理丢失的网络数据。实验结果表明,忽略丢失的数据会对网络的结构特性产生很大的负面影响。然而,基于简单数据填充算法的缺失数据处理也具有很大的负面影响,并且简单的填充只能在少数特定情况下成功地纠正数据缺失。
通过现有的资料可以发现,目前对社交网络中对缺失的用户信息数据的填充,各种算法的效果都不是特别理想。这是由于在社交网络上,用户信息数据是相对离散的,在填充过程中很难找到用户之间的特征,除非深入挖掘用户之间的关联性。
发明内容
本发明的目的是通过挖掘到缺失社交网络用户信息数据集中存在的关联性,对数据集进行填充,解决社交网络用户信息填充的准确性差的问题。
本发明所述的基于关联规则的社交网络用户信息填充方法,具体包括:
步骤一、基于SCRAPY爬虫框架获取用户的在网络社交平台上的个人信息和每个用户在网络社交平台上发布的信息;
步骤二、对用户在网络社交平台上的个人信息及其发布信息进行数据筛选处理,获取有效用户及其有效发布信息,利用ICTCLAS系统对每个有效用户在社交网络平台发布的信息进行分词,并提取每个有效用户的关键词;
步骤三、利用FP-Growth算法对有效用户的关键词进行关联,获取强关联规则集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010075197.0/2.html,转载请声明来源钻瓜专利网。