[发明专利]一种用于跨UGC网站平台的帐户关联方法有效
申请号: | 201510032702.2 | 申请日: | 2015-01-22 |
公开(公告)号: | CN104573057B | 公开(公告)日: | 2017-10-27 |
发明(设计)人: | 罗绪成;陈伟;刘梦娟;刘峤;蓝天;刘亚军;汤四见;赵鹏;李伟铭 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 ugc 网站 平台 帐户 关联 方法 | ||
技术领域
本发明属于互联网账户分析领域,更为具体地讲,涉及一种用于跨UGC网站平台的针对属于同一实体用户的多帐户关联方法。
背景技术
UGC(User Generated Content)网站主要是指基于用户生成内容的在线社交网站和在线论坛等,目前比较著名的UGC网站有Facebook、Twitter、Google+、人人网、开心网、豆瓣、新浪微博、腾讯微博等,它们已经成为主流分享信息的网络平台。然而,各种UGC网站提供给网民的服务类别不同,例如Facebook、Google+、人人网主要为用户提供社交服务,Twitter、新浪微博、腾讯微博允许用户将自己的最新动态和想法分享出来,淘宝网、京东商城则主要用于电子商务。因此,在不同类别的网络中我们获取到的信息会有所不同,将某种类别UGC网站的用户行为信息通过分析处理后应用到另外一种类别的UGC网站中去,可能会收获意想不到的效果,例如我们可以将Facebook、Google+、Twitter、人人网、大众点评网这种含有社交属性网站的用户行为信息经过分析处理后应用到淘宝网、京东商城这种没有社交属性的电子商务类别的网站中,可以迅速提高网站的服务质量、商品推荐质量等。由于目前各UGC网站用户帐户之间信息相互独立,因此,对属于同一实体用户的跨UGC网站用户账户进行关联具有重要意义和价值。
同时,随着UGC网站迅速发展,有些人利用UGC网站平台发布虚假信息、散播不实言论等,来达到自己不可告人的目的。这些人主要通过匿名的方式在多个UGC网站帐户上发布消息。这些恶意行为被称为“跨网站帐户攻击”,这种现象对UGC网站平台的后台管理带来了严重的困扰,在UGC网站后台的存储、计算、传输、应用等方面都带来了额外的开销,妨碍了网络资源的合理应用,严重影响了UGC网站平台的性能,因此,对属于同一实体用户的跨UGC网站多帐户进行关联更加具有研究价值。
在对用户帐户建模方面,传统的账户关联的研究中,一部分研究通过从用户在使用UGC网站时发生的行为中抽取特征对用户帐户进行建模,这些传统研究中定义的用户特征包括用户使用UGC网站时进行的行为操作,包括鼠标停留时间、页面访问频次、检索词使用习惯等。在获得UGC网站访问量基本数据的情况下,对有关数据进行统计、分析,从中发现用户访问UGC网站的规律,从而对用户帐户进行建模,关联网站用户账户。但是,这些用户特征在UGC网站中一般不容易获取,且UGC网站服务器所统计相关数据与用户的真实行为误差比较大,因此帐户关联准确率比较低。另一部分研究通过从用户帐户名字,出生日期,教育背景等用户在注册UGC网站时所公布的个人信息中提取特征对用户帐户建模,从而实现用户帐户关联;然而,在UGC网站中,用户帐户所公布个人信息涉及用户的个人隐私,往往不真实、不全面,且随机性比较高,因此,使用此方法的准确性和健壮性均不高。
UGC逐渐成为社交网站用户互动的主要应用形式,用户经常把与自身相关的信息以UGC的形式在网站上发布,Facebook、Twitter、人人网、大众点评网等网站都可以看作是UGC的成功案例,社区网络、视频分享、博客和播客(视频分享)等都是UGC的主要应用形式。本发明在对用户帐户进行建模时所使用的用户特征与传统研究中定义的用户特征不同,主要针对用户在使用UGC网站时所生成的文本内容中提取用户特征,从而对用户帐户进行建模,实现对属于同一实体用户的跨UGC网站多帐户关联。在UGC网站中,可以从用户的文本内容中提取多个特征,例如,地理位置活动特征、写作风格特征等,对用户帐户进行建模,能够比较全面的表达出用户的特点,从而获得较高的用户帐户关联准确率。同时,用户生成的文本内容比较稳定,不易被修改,具有较高的健壮性。
在跨UGC网站用户帐户关联方法选取方面,传统的研究大部分采用单特征关联方法,即针对每个用户特征,对用户帐户进行关联一次,没有将多个用户特征组合起来对跨UGC网站多账户进行关联,因而得到的关联用户账户准确率比较低。与以往研究不同,本发明采用逐层过滤的方法对用户帐户进行关联,即依次利用用户帐户模型中的多个用户特征对目标用户帐户数据集进行筛选,逐步缩小候选集,最终获得的用户账户数据集即是相互关联的跨UGC网站的多个用户帐户。由于充分利用了用户账户模型的各个特征,采用逐层过滤方法对跨UGC网站的多个用户账户进行关联具有较高的准确率。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510032702.2/2.html,转载请声明来源钻瓜专利网。