[发明专利]基于深度学习的互联网用户注意力指数计算方法和系统在审
申请号: | 201710804848.3 | 申请日: | 2017-09-08 |
公开(公告)号: | CN107977397A | 公开(公告)日: | 2018-05-01 |
发明(设计)人: | 庄浩;张均贺;蔡恒;张继勇 | 申请(专利权)人: | 华瑞新智科技(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/04 |
代理公司: | 北京理工大学专利中心11120 | 代理人: | 温子云,仇蕾安 |
地址: | 100081 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 互联网 用户 注意力 指数 计算方法 系统 | ||
技术领域
本发明涉及属于机器学习、深度学习技术领域,具体涉及基于深度学习的互联网用户注意力指数计算方法和系统。
背景技术
随着云计算的发展,互联网也进入了大数据时代。目前,根据IDC报告称,截止到2016年,全球数据总量在12ZB(1ZB=109TB)左右。我国的百度2013 年拥有数据量接近EB级别、阿里、腾讯声明自己存储的数据总量都达到了百 PB以上。此外,电信、医疗、金融、公共安全、交通、气象等各个方面保存的数据量也都达到数十或者上百PB级别。每年我们生产出大约800万首新歌,200 万本新书,1.6万部新电影,300亿个博客帖子,1820亿条推特信息,4万件新产品。面对海量的数据,互联网用户陷入了数据处理危机,因为人类的大脑无法处理海量的数据,用户的注意力因为海量的数据变得更加分散。在信息爆炸的互联网时代,用户的注意力变得非常有价值。传统媒体如电视广播利用黄金时间收取高昂的广告费;互联网公司利用智能算法计算出在最理想的位置、最理想的时间推送用户最关心的广告。因此如何评估用户的注意力以及如何评估一个产品或者事件所吸引的用户的注意力变得更加重要。
然而目前计算互联网用户注意力模型主要存在三个问题:
第一,模型计算维度比较简单。大部分搜索引擎公司如百度、搜狗简单的统计用户搜索一个词的次数作为搜索的热度指数。微信、微博等社交媒体,会计算一篇文章的阅读次数或者一个微博的转发量,点赞量来作为衡量用户注意力的一个维度。
第二,模型计算数据存在偏差性。如每一家不同的公司都是基于本公司的用户数据进行用户注意力计算,并没有考虑到同一件事情在不同平台的偏差,导致注意力指数结果比较片面。
第三,计算模型缺乏自适应性(adaptive)以及自学习能力。大部分模型依赖于专家经验知识以及人工选择特征,缺乏赋予计算机自动学习出关于用户注意力最佳特征的能力。这些问题使得目前互联网不能有效的计算用户对互联网事件以及产品等的注意力。
目前未发现有相关计算互联网注意力相关的专利。现有的类似专利有关于心理测试方面人类注意力以及视觉注意力。
发明内容
有鉴于此,本发明提出了一种基于深度学习的互联网用户注意力指数计算方法和系统,从多维度获取数据,全面考虑同一件事件在不同平台的反映,使得注意力指数结果能够全面反映真实情况,提高了注意力指数的计算准确度;而且通过深度学习,自动化构建千万级别维度,使得计算出的注意力指数能够快速应用到不同的行业产品以及不同类型的社会热点事件,扩大了应用范围。
为了解决上述技术问题,本发明提供的基于深度学习的互联网用户注意力指数计算方法,包括如下步骤:
步骤1、采集并处理多个互联网平台的各种类型数据,提取反映用户注意力的有效信息;
步骤2、将步骤1提取的有效信息写成词分布式表示矩阵;
步骤3、词分布式表示矩阵输入到多层深度网络学习模型的每一层算法模型中;所述多层深度网络学习模型中包括n层算法模型,如果n=1,则多层深度网络学习模型仅包括1层深度算法模型,如果n≥2,多层深度网络学习模型中的1层为深度算法模型,其他层可以为深度算法模型或基本算法模型;根据设定选择1层或1层以上的算法模型参与运算,参与运算的算法模型中必须有1层是深度算法模型;参与运算的每层算法模型均输出重要词及其权重;
步骤4、根据多层深度网络学习模型中每一层算法模型输出的重要词及其权重,计算互联网用户注意力。
优选地,所述各种类型数据包括搜索引擎数据、社交网络数据、电商数据、点评数据以及第三方公司内部数据。
优选地,所述步骤4为:先利用每一层算法模型输出的重要词及其权重,计算本层的互联网用户注意力;再将各层学习模型的互联网用户注意力进行综合,得到最终的互联网用户注意力指数值。
优选地,所述步骤3采用的深度算法模型为:词嵌入模型、卷积层CNN模型或递归序列RNN模型。
优选地,所述基本算法模型为基于词权重的算法模型、基于话题表示的算法模型或基于实体表示的算法模型。
本发明还提供了一种基于深度学习的互联网用户注意力指数计算系统,包括大数据处理引擎、词分布式表示模块、多层深度网络学习模块、用户注意力计算模块;
所述大数据处理引擎,用于采集并处理多个互联网平台的各种类型数据,提取反映用户注意力的有效信息;
词分布式表示模块,用于将所述有效信息写成词分布式表示矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华瑞新智科技(北京)有限公司,未经华瑞新智科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710804848.3/2.html,转载请声明来源钻瓜专利网。