[发明专利]一种基于自回归模型的在线连载内容流行度预测方法有效
申请号: | 201410161457.0 | 申请日: | 2014-04-21 |
公开(公告)号: | CN103914743B | 公开(公告)日: | 2017-01-25 |
发明(设计)人: | 常标;祝恒书;谭昶;陈恩红;刘淇;熊辉 | 申请(专利权)人: | 中国科学技术大学先进技术研究院 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06F17/30 |
代理公司: | 合肥天明专利事务所34115 | 代理人: | 张祥骞,奚华保 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 回归 模型 在线 连载 内容 流行 预测 方法 | ||
技术领域
本发明涉及在线连载内容流行度预测技术领域,具体来说是一种基于自回归模型的在线连载内容流行度预测方法。
背景技术
随着现代因特网的发展,在线分享内容成为了人们日常生活娱乐的重要部分。作为在线内容的一个重要组成形式,在线连载内容指的是那些包含很多集并持续定期更新的内容,如电视连续剧、综艺娱乐节目、动画片、连载小说等。越来越多的网络服务提供商或网站(如优酷、爱奇艺、腾讯视频、起点中文网、红袖添香等)直接向用户提供在线连载内容,并和其他来源(如电视台)保持在线同步。例如,优酷作为国内最大的视频网站,提供了许多地区或国家的电视剧、动画片、娱乐节目,并会同步或推迟一段时间更新。图1是根据优酷内部收录的电视剧信息绘制的上映第一周每集平均播放量趋势图,从图1可以明显看到电视剧播放量有着明显的增长趋势。
沿着这样的思路,一个很重要的需求是如何预测连载内容的流行度,它可以扩展更多的应用,如流行内容推荐、用户行为分析与理解、在线流量管理(缓存流行的内容,提升访问速度)等。
谷歌公布了一项重要研究成果——电影票房预测模型。该模型能够提前一个月预测电影上映首周的票房收入,准确度高达94%。谷歌的票房预测模型是大数据分析技术在电影行业的一个重要应用。随着互联网的发展,人们越来越习惯于在网上搜索电影信息。据谷歌统计,从2011到2012年,电影相关的搜索量增长了56%。谷歌发现,电影相关的搜索量与票房收入之间存在很强的关联。实现提前一个月预测的关键在于:谷歌采用了一项新的指标——电影预告片的搜索量。谷歌发现,预告片的搜索量比起电影的直接搜索量而言,可以更好的预测首周票房表现。这一点不难理解,因为在电影放映前一个月的时候,人们往往更多地搜索预告片。然而仅使用预告片的搜索量仍然不够,因此谷歌的模型最终采用了三类指标:(1)电影预告片的搜索量;(2)同系列电影前几部的票房表现;(3)档期的季节性特征。其中每类指标又包含了多项类内指标。在获取到每部电影的这些指标后,谷歌构建了一个线性回归模型(linear regression model)模型,来建立这些指标和票房收入的关系。线性模型虽然简单,但已经达到了很高的准确度(94%)。简单且效果好,是我们在实际应用中一直追求的。
和电影、传统的用户产生内容不同,在线连载内容具有自己的特性:即流行度序列依赖性、上映时间依赖性以及不同步的上映频率。例如,对于电视剧,相邻集的剧情很关联,这样就有可能使它们的观众大部分一样,相邻集的播放量也会有相关性,而且在周末或假期上映的集的播放量一般比在工作日上映的集的播放量要多,同时电视剧又是隔一段时间(如一天、一周)更新几集。这样连载内容流行度的预测问题就成为了一个多序列预测问题。
时间序列预测问题有很多经典的模型。例如自回归模型(英语:Autoregressive model,简称AR模型),是统计上一种处理时间序列的方法,用同一变量例如x的之前各值,亦即x1至xt-1来预测本期xt的表现,并假设它们具有线性关系。因为这是从回归分析中的线性回归发展而来,只是不用x预测y,而是用x预测x(自己),所以叫做自回归。自回归模型被广泛运用在经济学、信息学、自然现象的预测上。向量自回归模型(英语:Vector Autoregression model,简称VAR模型)是一种常用的计量经济模型,由计量经济学家和宏观经济学家克里斯托弗·西姆斯(英语:Christopher Sims)提出。它扩充了只能使用一个变量的自回归模型(简称:AR模型),使容纳大于1个变量,因此经常用在多变量时间序列模型的分析上。VAR模型描述在同一样本期间内的n个变量(内生变量)可以作为它们过去值的线性函数。自回归滑动平均模型(英语:Autoregressive moving average model,简称:ARMA模型),是研究时间序列的重要方法,由自回归模型(简称AR模型)与滑动平均模型(简称MA模型)为基础“混合”构成。在市场研究中常用于长期追踪资料的研究,如:Panel研究中,用于消费行为模式变迁研究;在零售研究中,用于具有季节变动特征的销售量、市场规模的预测等。ARIMA模型(英语:Autoregressive Integrated Moving Average model),差分整合移动平均自回归模型,又称整合移动平均自回归模型(移动也可称作滑动),时间序列预测分析方法之一。ARIMA(p,d,q)中,AR是自回归,p为自回归项数;MA为滑动平均,q为滑动平均项数,d为使之成为平稳序列所做的差分次数(阶数)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学先进技术研究院,未经中国科学技术大学先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410161457.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:保健鸽肉肠
- 下一篇:一种利用共振式馈电结构的宽带天线
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理