[发明专利]一种基于大数据的资讯推荐方法、系统及装置在审
| 申请号: | 201710967315.7 | 申请日: | 2017-10-17 |
| 公开(公告)号: | CN107798083A | 公开(公告)日: | 2018-03-13 |
| 发明(设计)人: | 陈贤耿;孔祥明;胡旭 | 申请(专利权)人: | 广东广业开元科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 广州嘉权专利商标事务所有限公司44205 | 代理人: | 胡辉 |
| 地址: | 510623 广东省广州市天*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 数据 资讯 推荐 方法 系统 装置 | ||
技术领域
本发明涉及大数据技术领域,尤其涉及一种基于大数据的资讯推荐方法、系统及装置。
背景技术
随着互联网的普及以及技术的发展,各种各样信息发布平台逐步出现在人们的视野当中,使得人们获取资讯的方式更加简单,方法更加多样,拉近了媒体与人们的距离。与此同时,每天产生大量的资讯也带来了信息爆炸的问题。虽然人们每天都能轻易地获取大量的资讯,但却很容易变得迷茫。因为从复杂大量的信息中获取对自己有用的资讯变得很难,成本非常高。若采用经典的协同过滤算法对资讯进行过滤,对于大量的数据来说,准确性不高。而且一般采用传统方法收集用户行为数据的代价很高,很难做到及时。
发明内容
为了解决上述技术问题,本发明的目的是提供一种能及时采集数据,且准确性较高的基于大数据的资讯推荐方法、系统及装置。
本发明所采取的技术方案是:
一种基于大数据的资讯推荐方法,包括以下步骤:
采集用户行为数据并对其进行分析,得到资讯集数据以及用户行为分析数据;
对资讯集数据进行预处理,得到语料库;
对得到的语料库进行LDA建模;
通过分布式Gibbs Sampling对资讯集数据进行采集处理,得到训练集,进而得到主题分布概率矩阵;
根据训练集和主题分布概率矩阵,通过Logistic回归算法计算每篇新的资讯文档的权重得分;
将权重得分最高的n篇资讯文档对用户进行推荐,其中,n为预设值。
作为所述的一种基于大数据的资讯推荐方法的进一步改进,所述的采集用户行为数据并对其进行分析,得到资讯集数据以及用户行为分析数据,这一步骤具体包括:
采集日志并进行分类处理,得到用户行为日志;
根据用户行为日志,采集得到用户行为数据;
对资讯文档进行分类并存储;
通过聚类方法对兴趣相似的用户进行分类;
对需要推荐的该类的用户,对浏览过的资讯文档标记为1,对未浏览过的资讯文档标记为0,得到浏览资讯集和未浏览资讯集,即得到资讯集数据;
获取资讯集中每个资讯文档的ID,并获取每个资讯文档的用户停留时间,得到用户行为分析数据。
作为所述的一种基于大数据的资讯推荐方法的进一步改进,所述的对资讯集数据进行预处理,得到语料库,这一步骤具体包括:
对资讯集数据中的资讯文档进行分词处理,并对未登录词进行识别,得到资讯文档中的词;
将得到的词根据预设的停留词表进行去停留词处理,得到语料库。
作为所述的一种基于大数据的资讯推荐方法的进一步改进,所述的对得到的语料库进行LDA建模,这一步骤具体包括:
根据语料库,进行LDA建模得到LDA模型;
对LDA模型中的参数进行优化计算;
根据建立的LDA模型进行参数估计。
作为所述的一种基于大数据的资讯推荐方法的进一步改进,所述的根据语料库,进行LDA建模得到LDA模型,这一步骤具体表现为:
其中,主题分布θ服从超参数为α的狄利克雷,词分布服从超参数为β的狄利克雷分布,词w服从参数为θ的主题分布,主题编号z服从参数为的多项式分布。
作为所述的一种基于大数据的资讯推荐方法的进一步改进,所述的对LDA模型中的参数进行优化计算,这一步骤的具体计算公式为:
其中,表示优化后的参数α,表示优化后的参数β,αk表示优化前的参数α,βt表示优化前的参数β,为Digamma函数,表示求变量x的对数的导数,nik表示第i篇文章,主题为k的文档计数,nkt表示主题编号为k的词t的计数,且ni=∑knik,nk=∑tnkt。
作为所述的一种基于大数据的资讯推荐方法的进一步改进,所述的根据建立的LDA模型进行参数估计,这一步骤的具体计算公式为:
其中,表示主题k下词t的分布概率,θm,k表示为第m篇文档主题为k的分布概率,表示主题k下关于词t的计数,表示第m篇文档下关于词t的计数,αt表示关于词t的参数α,βt表示关于词t的参数β。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东广业开元科技有限公司,未经广东广业开元科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710967315.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





