[发明专利]一种两个不同平台下同一用户识别方法及系统在审
申请号: | 201510221212.7 | 申请日: | 2015-05-04 |
公开(公告)号: | CN104778388A | 公开(公告)日: | 2015-07-15 |
发明(设计)人: | 李寿山;王晶晶;周国栋 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F21/31 | 分类号: | G06F21/31;G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 两个 不同 平台 同一 用户 识别 方法 系统 | ||
1.一种两个不同平台下同一用户识别方法,其特征在于,该方法包括:
采集两个不同平台下的个人资料信息;
对所述采集的个人资料信息进行标注;
对已经标注的个人资料信息和待测的两个不同平台下用户的个人资料信息分别进行特征抽取后分别作为训练样本和测试样本;
利用k-近邻算法对所述待测的两个不同平台下的用户进行类别识别,确定所述两个不同平台下的待测用户是否为同一用户。
2.根据权利要求1所述的方法,其特征在于,所述两个不同平台分别为新浪微博和腾讯微博,所述采集两个不同平台下的个人资料信息,包括:
构建用户队列;
挑选一个微博用户作为种子用户,加入到所述用户队列中;
从所述用户队列中取出一个用户,通过新浪微博提供的API抓取用户个人资料信息,所述用户个人资料信息包括用户名、用户ID、性别、年龄、关注用户及粉丝用户,并将所述关注用户和粉丝用户加入到所述用户队列中;
重复上述抓取用户个人资料信息的过程,直到抓取的用户数目达到设定数值。
3.根据权利要求1所述的方法,其特征在于,所述对采集的个人资料信息进行标注,包括:
对两个不同平台下相匹配的个人资料信息标注为同一用户或者正类,对两个不同平台下不相匹配的个人资料信息标注为非同一用户或者负类。
4.根据权利要求1所述的方法,其特征在于,所述对已经标注的个人资料信息和待测的两个不同平台下用户的个人资料信息分别进行特征抽取后分别作为训练样本和测试样本,包括:
对所述标注的两个不同平台下的用户个人资料信息进行特征抽取,并将抽取结果作为训练样本;
对未标注的两个不同平台下的用户个人资料信息进行特征抽取,并将抽取结果作为测试样本。
5.根据权利要求1所述的方法,其特征在于,所述利用k-近邻算法对所述待测的两个不同平台下的用户进行类别识别,确定所述两个不同平台下的待测用户是否为同一用户,包括:
计算待测样本集与训练样本集之间的余弦相似度;
按照距离递增次序排序;
选取与当前待测样本距离最小的k个训练样本;
确定前k个训练样本所在类别的出现频率;
返回前k个训练样本出现频率最高的类别作为当前待测样本的预测标签。
6.一种两个不同平台下同一用户识别系统,其特征在于,该系统包括:
采集单元,用于采集两个不同平台下的个人资料信息;
标注单元,用于对所述采集的个人资料信息进行标注;
特征抽取单元,用于对已经标注的个人资料信息和待测的两个不同平台下用户的个人资料信息分别进行特征抽取后分别作为训练样本和测试样本;
类别识别单元,用于利用k-近邻算法对所述待测的两个不同平台下的用户进行类别识别,确定所述两个不同平台下的待测用户是否为同一用户。
7.根据权利要求6所述的系统,其特征在于,所述两个不同平台分别为新浪微博和腾讯微博,所述采集单元包括:
构建单元,用于构建用户队列;
挑选单元,用于挑选一个微博用户作为种子用户,加入到所述用户队列中;
抓取单元,用于从所述用户队列中取出一个用户,通过新浪微博提供的API抓取用户个人资料信息,所述用户个人资料信息包括用户名、用户ID、性别、年龄、关注用户及粉丝用户,并将所述关注用户和粉丝用户加入到所述用户队列中;
重复单元,用于重复上述抓取用户个人资料信息的过程,直到抓取的用户数目达到设定数值。
8.根据权利要求6所述的系统,其特征在于,所述标注单元包括:
第一标注子单元,用于对两个不同平台下相匹配的个人资料信息标注为同一用户或者正类;
第二标注子单元,用于对两个不同平台下不相匹配的个人资料信息标注为非同一用户或者负类。
9.根据权利要求6所述的系统,其特征在于,所述特征抽取单元包括:
第一特征抽取子单元,用于对所述标注的两个不同平台下的用户个人资料信息进行特征抽取,并将抽取结果作为训练样本;
第二特征抽取子单元,用于对未标注的两个不同平台下的用户个人资料信息进行特征抽取,并将抽取结果作为测试样本。
10.根据权利要求6所述的系统,其特征在于,所述类别识别单元包括:
计算单元,用于计算待测样本集与训练样本集之间的余弦相似度;
排序单元,用于按照距离递增次序排序;
选取单元,用于选取与当前待测样本距离最小的k个训练样本;
确定单元,用于确定前k个训练样本所在类别的出现频率;
返回单元,用于返回前k个训练样本出现频率最高的类别作为当前待测样本的预测标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510221212.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:身份认证系统及其方法
- 下一篇:采用计算模型优化包核颜料核/壳比的确定方法