[发明专利]一种社交网络用户虚实映射方法和系统在审
| 申请号: | 201410042782.5 | 申请日: | 2014-01-29 |
| 公开(公告)号: | CN103745014A | 公开(公告)日: | 2014-04-23 |
| 发明(设计)人: | 梁英;胡开先;许洪波;程学旗;张国清 | 申请(专利权)人: | 中国科学院计算技术研究所 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 社交 网络 用户 虚实 映射 方法 系统 | ||
技术领域
本发明涉及计算机数据挖掘分析领域,尤其涉及一种社交网络用户虚实映射方法和系统。
背景技术
随着互联网的不断发展,社交网络在人们生活中扮演着重要的角色,微博、微信、人人网等已经成为人们获取信息、展示自我和营销推广的重要手段。通过社交网络,人们可以方便地以虚拟身份自由发表观点和意见,每个人都是信息的生产者和消费者,形成“自媒体”。匿名的社交网络在一定程度上保护了用户的隐私,但同样也带来了很多问题。比如,不易追踪网络虚假消息的发布者、不易定位危害国家治安言论的发布者、不易在网络中追查违法犯罪行为等。尽管我国推出了网络实名制注册政策,但面对无边界的网络社会,实名制需要全国统一,甚至需要与世界接轨,因此在实施过程中困难重重。此外,即使是采用了实名制注册也是后台实名,而前台显示仍使用昵称的匿名形式。因此,在网络的虚拟性、匿名性等特征下,根据用户在社交网络中的虚拟身份来识别用户的真实身份,即实现用户的虚实映射,具有积极的社会意义。
目前,针对社交网络中用户虚实映射的研究主要包括以下两个方面:一类是基于网络IP地址定位网络设备,如通过分析移动设备IP地址,网络设备IP地址及台式电脑IP地址等来获取设备所在的省市信息;另一类是通过人物特征属性对某个用户群体进行识别,用户的特征属性可以包括性别、年龄段、居住地、毕业院校、性格、星座、爱好、职业等,通过挖掘网络数据来识别用户特征属性,可以将拥有相同或相似特征属性的用户群挖掘出来,以便为网络营销、电商广告提供服务。
然而,由于实践中难以获得社交网络用户的IP信息,因此前一类方法的适用范围受到一定限制,不能满足IP缺失的社交网络用户的虚实映射需求;而第二类方法面向拥有相似特征的用户群,并不是面向个人用户,其偏向于挖掘用户的特征属性分类,并不能识别用户的真实身份。
发明内容
为解决现有技术中存在的问题,本发明提供一种社交网络用户虚实映射方法,所述方法包括:
步骤1)、根据社交网络用户的唯一标识获取该社交网络用户的地理位置信息,并且获取该地理位置信息对应的地理位置的周边单位名称列表;
步骤2)、将所述周边单位名称列表中的每个单位名称与所述社交网络用户发布的消息内容进行匹配,根据匹配程度选择一个或多个单位名称。
在一个实施例中,步骤1)还包括:对所述周边单位名称列表中的每个单位名称进行分词,得到该单位名称的分词结果。
在一个实施例中,在步骤2)中,将周边单位名称列表中的每个单位名称与社交网络用户发布的消息内容进行匹配包括:
步骤21)、将每个单位名称的全称与所述社交网络用户发布的消息内容进行匹配,如果匹配成功则使用下式计算该单位名称的近似度权重:
weight(str)=word.size(str)*factormatchtime(sstr)
其中,str表示单位名称,weight(str)表示单位名称的近似度权重,word.size(str)表示单位名称的长度,factor表示乘数因子,matchtimes(str)表示单位名称与消息内容的匹配成功次数;
步骤22)、如果匹配不成功,则将该单位名称的分词结果中除该单位名称的全称外的每个分词与所述社交网络用户发布的消息内容进行匹配,将每个分词的匹配成功次数之和作为该单位名称的近似度权重。
在一个实施例中,步骤2)还包括:
步骤23)、合并近似度权重相同且具有共同的最大前缀的单位名称,使得所述共同的最大前缀包含在前缀词库中或者其长度达到预定长度;其中,合并后的单位名称为所述共同的最大前缀且其近似度权重为所合并的单位名称的近似度权重之和,所述前缀词库用于存放指示地理位置的前缀词。
在进一步的实施例中,步骤23)包括:
步骤231)、对于一种近似度权重,新建一棵Trie树;
步骤232)、将具有该近似度权重的单位名称插入所述Trie树,得到具有共同的最大前缀的单位名称;
步骤233)、如果该共同的最大前缀包含在前缀词库中或者其长度达到预定长度,则合并具有该共同的最大前缀且具有该近似度权重的单位名称;其中,合并后的单位名称为该共同的最大前缀且其近似度权重为所合并的单位名称的近似度权重之和,所述前缀词库用于存放指示地理位置的前缀词;
步骤234)、销毁所述Trie树;
步骤235)、对于未处理的近似度权重,返回步骤231)进行处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410042782.5/2.html,转载请声明来源钻瓜专利网。





