[发明专利]一种支持用户私有IP发现的跨屏追踪方法有效
申请号: | 201810826981.3 | 申请日: | 2018-07-25 |
公开(公告)号: | CN108924246B | 公开(公告)日: | 2021-01-01 |
发明(设计)人: | 申德荣;亓建顺;聂铁铮;寇月;于戈 | 申请(专利权)人: | 东北大学 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;G06F16/9535;G06K9/62 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 刘晓岚 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 支持 用户 私有 ip 发现 追踪 方法 | ||
本发明提供一种支持用户私有IP发现的跨屏追踪方法,涉及数据质量和数据集成技术领域。该方法首先基于半监督学习的迭代式方法计算数据集中所有IP的用户私有IP概率;并基于用户私有IP概率生成候选集;计算候选集中候选对上的各属性的TF‑IDF相似度和关联相似度以及IP属性上的PIPSim相似度,得到候选对的属性相似度向量;利用GBRT模型预测候选对的相似度;最后基于得到的相似度生成相似度图,使用图聚类算法进行用户聚类。本发明提供的支持用户私有IP发现的跨屏追踪方法,综合考虑了设备、Cookie和已知用户之间的用户识别,相比于其他的跨屏追踪方法,在准确率、召回率以及F‑0.5值上都有较大幅度的提升。
技术领域
本发明涉及数据质量和数据集成技术领域,尤其涉及一种支持用户私有IP发现的跨屏追踪方法。
背景技术
随着智能设备的兴起,互联网用户可能会使用多台设备同时浏览网页,这对广告商和网站主的个性化服务造成了很大的困扰。对于同时使用电脑和手机的用户,广告商不能依据电脑端的浏览记录在用户的手机端推送广告,造成广告推送的割裂,这对广告商会造成巨大的利润损失;而网站主会由于不能推送用户的兴趣点而造成用户粘度下降,损失用户。
跨屏追踪是根据网络日志识别同一互联网用户的多台设备。对于用户的手机、Pad等移动端设备可以使用设备号(如安卓设备的IMEI号和苹果设备的IDFA号)来唯一标识一台设备,设备号和移动设备之间是一一对应的关系;对于用户PC,可以使用用户浏览网页的Cookie来唯一标识PC,但是同一PC可能会对应多个Cookie,PC和Cookie之间是一对多的关系。跨屏追踪就是识别哪些设备和哪些Cookie属于同一个用户。
现有的跨屏追踪方法主要分为四个过程:候选集生成、特征工程、模型训练和后期处理。
对于候选集生成过程,由于服务器日志数量巨大,候选集生成过程直接影响了跨屏追踪的效率。现有方法主要使用IP来生成候选集,将使用过同一IP的Cookie和设备作为候选对。然而并不是所有的IP都能用于候选集生成,对于有大量设备和Cookie接入的IP不能用于候选集生成。使用这种IP生成候选集将导致候选集的准确率大大降低。且这种基于设备和Cookie数量的生成方法具有数据敏感性,需要针对不同的数据集设计不同的生成规则,不具有通用性;而且现有的候选集生成方法只能保证较高的召回率,具有准确率比较低的局限性。
同时,现有跨屏追踪方法中主要将跨屏追踪问题看作是一个二分图问题,只对移动设备和Cookie进行用户识别,没有考虑Cookie和Cookie的用户识别,也没有充分利用已知用户的信息,导致预测结果的召回率偏低。如图1所示,已知Cookie1、Cookie2属于同一用户u1,pij表示设备devi和cookiej属于同一用户的概率,表示设备devi与用户u1属于同一用户的概率。由于现有的用户识别过程没有对Cookie1和Cookie2的信息进行聚合,可能会认为dev1、Cookie1以及Cookie2不属于同一用户,造成召回率降低;假设dev1、Cookie3和Cookie4也属于同一用户,通过图1,可能会认为dev1和Cookie4属于同一用户,而dev1和Cookie3不属于同一用户,造成召回率降低。
发明内容
针对现有技术的缺陷,本发明提供一种支持用户私有IP发现的跨屏追踪方法,实现对服务器日志的用户识别。
一种支持用户私有IP发现的跨屏追踪方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810826981.3/2.html,转载请声明来源钻瓜专利网。