[发明专利]一种网络视频终端聚合方法及系统有效
申请号: | 201310166163.2 | 申请日: | 2013-05-08 |
公开(公告)号: | CN104144181B | 公开(公告)日: | 2017-12-29 |
发明(设计)人: | 张辉;李长路;孙鹏;潘梁 | 申请(专利权)人: | 中国科学院声学研究所;北京海力汇通数字系统技术有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;G06F17/30 |
代理公司: | 北京法思腾知识产权代理有限公司11318 | 代理人: | 杨小蓉,杨林 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 视频 终端 聚合 方法 系统 | ||
技术领域
本发明涉及数据挖掘领域,信息聚合领域,实现利用终端用户信息对用户兴趣的挖掘,提取多维兴趣主题,并以此为据,将用户订阅的视频网站中,用户感兴趣的视频聚合到用户终端。
背景技术
传统的终端媒体信息管理局限于本地媒体信息数据库的管理和更新,以供用户查阅,以及在用户操作时向交互系统提供必要的信息支持。在三网融合背景下,作为网络终端的电视机智能终端操作系统,不再满足于对本地存储信息的查阅,而需要根据用户的需要提供更丰富的网络视频信息。把互联网视频网站中用户感兴趣的视频像本地视频一样呈现给用户点击播放,已经成为趋势。
目前用户获取网络视频的手段包括视频网站浏览,搜索,推荐,以及少量的c/s聚合系统。网页浏览和搜索在pc终端上应用广泛,但对于电视机、手机等并不擅长键鼠操作的智能终端来讲,明显增加了用户负担,降低了用户体验。现有的聚合系统都采用服务器/终端模式,使用户面临着必须注册、反馈,并且被迫接受服务端广告等冗余信息困境。
另一方面,网络信息资源的海量增长和用户贡献内容的不断扩充,给用户带来资源选择多样化和自主化的同时,也带来选择迷航的问题,而当互联网的信息量越来越大,搜索引擎这种基于内容本身呈现信息的方式再怎么改良,也无法避免冗余的信息。大量冗余信息的存在也会成为用户和终端的负担。
发明内容
本发明的目的在于,提供一种终端主动聚合网络视频的方法,能够有效扩展视频来源,充分享受海量增长的网络视频源给用户带来资源选择多样化和自主化的同时,避免其带来的选择迷航问题。同时还要避免目前主要方案中需要注册、提交用户信息、显式获取兴趣等智能终端用户,尤其是电视机用户通常不愿意做的事情。
为实现上述目的,本发明提供了一种网络视频终端聚合方法,所述方法包含:
步骤101)通过订阅指定网络视频聚合的源;
步骤102)利用爬虫从订阅网站提取网络视频元数据;
步骤103)将本地播放记录和本地视频信息存储在本地数据库;
步骤104)对本地数据库数据进行预处理,以适应兴趣挖掘需要,其中,所述预处理是对数据库中存储的视频信息逐条过滤,剔除无效信息记录,选取符合条件的数据用于兴趣挖掘;
步骤105)根据本地数据库,挖掘用户多维兴趣主题,所述本地数据库以一定的数据结构存储若干条视频元数据描述,这些视频对象包括本地存储的视频文件,以及用户播放记录中的视频;
步骤106)根据网络视频与用户兴趣的匹配程度对网络视频进行过滤排序,所述匹配过滤依次将每一条网络视频描述信息与兴趣主题匹配,过滤并保留匹配程度高于阈值的结果,并排序;
步骤107)显示经过滤、排序而得的网络视频列表。
上述网络视频元数据包括:视频名、视频源地址、年份、导演、演员或类型,将所有元数据形成网络视频的多维描述信息。
上述指定视频聚合源的网站是一个或多个视频网站的首页网址。
上述爬虫模块以订阅模块指定的一个或多个网页为初始页面,提取视频元数据,为每一个视频生成一条元数据描述,并嵌套地对其包含的二级页面逐一遍历,以获取符合条件的视频元数;同时,获取元数据的方式还可选地包括直接收割网站按一定规范发布的视频信息。
多维兴趣主题即为在两个或两个以上维度进行描述的兴趣主题,其基础为,每一条视频信息都由多个维度的描述信息组成。
多维兴趣主题的提取分为以下步骤:
a、一维兴趣提取:对每一个拟挖掘的维度采取独立的兴趣挖掘策略和标准,得到该维度上的若干兴趣主题,成为一个集合;
b、二维兴趣提取:在不同维度间,若两个兴趣主题同时出现在一条多维信息中,则这两个兴趣主题有关联;同时出现越多,关联越大;把关联度大过阈值的组合在一起,成为一个二维兴趣主题,采用同样的方法找出所有的二维兴趣主题;
c、多维兴趣提取:若某维度上的主题出现在两个多维主题中,检查是否这两个多维主题中每个一维主题间都存在超过阈值的关联程度,若是,则合并这两个多维主题,成为更高维度的兴趣主题;
d、记录所有不能进一步合并的多维兴趣主题。
为了实现上述目的,本发明还提供了一种网络视频终端聚合系统,所述系统包含:
订阅模块,用于指定网络视频聚合的源;
爬虫模块,用于从订阅模块获得的网络视频聚合源的网站提取网络视频元数据;
本地数据库模块,用于存储本地播放记录和本地视频信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;北京海力汇通数字系统技术有限公司,未经中国科学院声学研究所;北京海力汇通数字系统技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310166163.2/2.html,转载请声明来源钻瓜专利网。