[发明专利]一种两个不同平台下同一用户识别方法及系统在审

申请号：	201510221212.7	申请日：	2015-05-04
公开（公告）号：	CN104778388A	公开（公告）日：	2015-07-15
发明（设计）人：	李寿山;王晶晶;周国栋	申请（专利权）人：	苏州大学
主分类号：	G06F21/31	分类号：	G06F21/31;G06F17/30
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	罗满
地址：	215123 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种两个不同平台同一用户识别方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种两个不同平台下同一用户识别方法，其特征在于，该方法包括：

采集两个不同平台下的个人资料信息；

对所述采集的个人资料信息进行标注；

对已经标注的个人资料信息和待测的两个不同平台下用户的个人资料信息分别进行特征抽取后分别作为训练样本和测试样本；

利用k-近邻算法对所述待测的两个不同平台下的用户进行类别识别，确定所述两个不同平台下的待测用户是否为同一用户。

2.根据权利要求1所述的方法，其特征在于，所述两个不同平台分别为新浪微博和腾讯微博，所述采集两个不同平台下的个人资料信息，包括：

构建用户队列；

挑选一个微博用户作为种子用户，加入到所述用户队列中；

从所述用户队列中取出一个用户，通过新浪微博提供的API抓取用户个人资料信息，所述用户个人资料信息包括用户名、用户ID、性别、年龄、关注用户及粉丝用户，并将所述关注用户和粉丝用户加入到所述用户队列中；

重复上述抓取用户个人资料信息的过程，直到抓取的用户数目达到设定数值。

3.根据权利要求1所述的方法，其特征在于，所述对采集的个人资料信息进行标注，包括：

对两个不同平台下相匹配的个人资料信息标注为同一用户或者正类，对两个不同平台下不相匹配的个人资料信息标注为非同一用户或者负类。

4.根据权利要求1所述的方法，其特征在于，所述对已经标注的个人资料信息和待测的两个不同平台下用户的个人资料信息分别进行特征抽取后分别作为训练样本和测试样本，包括：

对所述标注的两个不同平台下的用户个人资料信息进行特征抽取，并将抽取结果作为训练样本；

对未标注的两个不同平台下的用户个人资料信息进行特征抽取，并将抽取结果作为测试样本。

5.根据权利要求1所述的方法，其特征在于，所述利用k-近邻算法对所述待测的两个不同平台下的用户进行类别识别，确定所述两个不同平台下的待测用户是否为同一用户，包括：

计算待测样本集与训练样本集之间的余弦相似度；

按照距离递增次序排序；

选取与当前待测样本距离最小的k个训练样本；

确定前k个训练样本所在类别的出现频率；

返回前k个训练样本出现频率最高的类别作为当前待测样本的预测标签。

6.一种两个不同平台下同一用户识别系统，其特征在于，该系统包括：

采集单元，用于采集两个不同平台下的个人资料信息；

标注单元，用于对所述采集的个人资料信息进行标注；

特征抽取单元，用于对已经标注的个人资料信息和待测的两个不同平台下用户的个人资料信息分别进行特征抽取后分别作为训练样本和测试样本；

类别识别单元，用于利用k-近邻算法对所述待测的两个不同平台下的用户进行类别识别，确定所述两个不同平台下的待测用户是否为同一用户。

7.根据权利要求6所述的系统，其特征在于，所述两个不同平台分别为新浪微博和腾讯微博，所述采集单元包括：

构建单元，用于构建用户队列；

挑选单元，用于挑选一个微博用户作为种子用户，加入到所述用户队列中；

抓取单元，用于从所述用户队列中取出一个用户，通过新浪微博提供的API抓取用户个人资料信息，所述用户个人资料信息包括用户名、用户ID、性别、年龄、关注用户及粉丝用户，并将所述关注用户和粉丝用户加入到所述用户队列中；

重复单元，用于重复上述抓取用户个人资料信息的过程，直到抓取的用户数目达到设定数值。

8.根据权利要求6所述的系统，其特征在于，所述标注单元包括：

第一标注子单元，用于对两个不同平台下相匹配的个人资料信息标注为同一用户或者正类；

第二标注子单元，用于对两个不同平台下不相匹配的个人资料信息标注为非同一用户或者负类。

9.根据权利要求6所述的系统，其特征在于，所述特征抽取单元包括：

第一特征抽取子单元，用于对所述标注的两个不同平台下的用户个人资料信息进行特征抽取，并将抽取结果作为训练样本；

第二特征抽取子单元，用于对未标注的两个不同平台下的用户个人资料信息进行特征抽取，并将抽取结果作为测试样本。

10.根据权利要求6所述的系统，其特征在于，所述类别识别单元包括：

计算单元，用于计算待测样本集与训练样本集之间的余弦相似度；

排序单元，用于按照距离递增次序排序；

选取单元，用于选取与当前待测样本距离最小的k个训练样本；

确定单元，用于确定前k个训练样本所在类别的出现频率；

返回单元，用于返回前k个训练样本出现频率最高的类别作为当前待测样本的预测标签。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于苏州大学，未经苏州大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510221212.7/1.html，转载请声明来源钻瓜专利网。

上一篇：身份认证系统及其方法
下一篇：采用计算模型优化包核颜料核/壳比的确定方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F21-00 防止未授权行为的保护计算机或计算机系统的安全装置
G06F21-02 .通过保护计算机的特定内部部件
G06F21-04 .通过保护特定的外围设备，如键盘或显示器
G06F21-06 .通过感知越权操作或外围侵扰
G06F21-20 .通过限制访问计算机系统或计算机网络中的节点
G06F21-22 .通过限制访问或处理程序或过程

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种两个不同平台下同一用户识别方法及系统在审

专利文献下载