[发明专利]一种跨平台识别用户的方法及装置在审
申请号: | 201911017272.1 | 申请日: | 2019-10-24 |
公开(公告)号: | CN110826605A | 公开(公告)日: | 2020-02-21 |
发明(设计)人: | 安达;江金陵 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/35 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 胡艳华;栗若木 |
地址: | 102218 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 平台 识别 用户 方法 装置 | ||
1.一种跨平台识别用户的方法,包括:
基于用户资料将用户身份信息相似的多个平台的用户进行聚类,生成多个用户块;
对用户块内的用户在平台上发表的内容进行分析和特征提取,获得用户发表内容的文本特征;
将用户发表内容的文本特征进行文本数字化处理,得到用户发表内容的数字化特征;
根据用户发表内容的数字化特征对用户块内的用户进行匹配,将用户发表内容的相似度满足预设要求的两个用户识别为同一个人注册的不同用户。
2.如权利要求1所述的方法,其特征在于:
所述基于用户资料将用户身份信息相似的多个平台的用户进行聚类,生成多个用户块,包括:
基于用户资料生成每一个用户的身份特征向量,所述身份特征向量包括N维身份特征信息;N≥1;
采用Canopy聚类算法对身份特征相似的用户进行聚类,根据聚类结果生成多个用户块。
3.如权利要求1所述的方法,其特征在于:
所述对用户块内的用户在平台上发表的内容进行分析和特征提取,获得用户发表内容的文本特征,包括:
对用户块内的任意一个用户,由所述用户在平台上发表的多条文字记录生成所述用户的文本库;
对所述用户的文本库进行分词,计算所述文本库中的各个分词的词频-逆向文件频率TF-IDF值;根据分词的TF-IDF值确定所述分词的类别区分能力权重;
对各个分词按照类别区分能力权重从高到低进行排序,由类别区分能力权重排名靠前的多个分词生成所述用户发表内容的文本特征向量。
4.如权利要求3所述的方法,其特征在于:
所述将用户发表内容的文本特征进行文本数字化处理,得到用户发表内容的数字化特征,包括:
通过文本数字化函数对M维文本特征向量中的每一个文本特征进行文本数字化处理,生成M维数字特征向量;其中,所述M维数字特征向量包括M个数字特征,每一个数字特征是一个数字序列;
为所述M维数字特征向量中的每一个数字特征分配权重,利用分配的权重对所述M维数字特征向量中的每一个数字特征分别进行加权处理得到M维加权数字特征向量;其中,所述数字特征的权重设置为所述数字特征在文本数字化处理时对应的原始分词的类别区分能力权重;
将所述M维加权数字特征向量中所有的加权数字特征合并为一个新的数字序列,所述新的数字序列作为用户发表内容的数字化签名。
5.如权利要求4所述的方法,其特征在于:
所述将所述M维加权数字特征向量中所有的加权数字特征合并为一个数字序列,包括:
将所述M维加权数字特征向量中每一个加权数字特征对应的数字序列划分为n个数字子序列,每一个数字子序列对应于所述加权数字特征加权前的二进制数字序列的1个比特;
将所有的加权数字特征的数字子序列对应相加生成n个累加和,将所述n个累加和按照之前数字子序列在数字序列中的排列顺序连成一个新的数字序列。
6.如权利要求5所述的方法,其特征在于:
所述根据用户发表内容的数字化特征对用户块内的用户进行匹配,将用户发表内容的相似度满足预设要求的两个用户识别为同一个人注册的不同用户,包括:
对同一个用户块内的任意两个用户,由每一个用户发表内容的数字化签名生成一个n维特征向量,所述n维特征向量中的每一个特征对应于数字化签名的一个子序列;计算两个用户的n维特征向量的余弦相似度,当所述余弦相似度大于阈值时,判定所述两个用户归属于同一个人;
其中,所述数字化签名包括n个子序列,每一个子序列是生成所述数字化签名时所有的加权数字特征的数字子序列的累加和。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911017272.1/1.html,转载请声明来源钻瓜专利网。