[发明专利]电视节目标签自动生成系统无效

申请号：	201210110031.3	申请日：	2012-04-16
公开（公告）号：	CN102622451A	公开（公告）日：	2012-08-01
发明（设计）人：	朱其立;蔡智源;王拯	申请（专利权）人：	上海交通大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	上海汉声知识产权代理有限公司 31236	代理人：	郭国中
地址：	200240 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	电视节目标签自动生成系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及的是一种计算机应用技术领域的系统，具体是一种电视节目标签自动生成系统。

背景技术

长久以来，如何帮助人们更好的做出选择，总是一个意义重大而又充满趣味的问题。人们做出选择是以一定的信息为基础的，将搜集到的信息与个人观念、爱好相结合，即产生了选择行为。然而，信息的获取并不简单。在网络尚不发达，信息交流并不便利的过去，信息的匮乏、比较的困难成为人们做出选择的障碍。而步入信息时代，信息的获取只需轻点鼠标即可完成，但是这却带来了另外的一个问题，信息泛滥。面对着海量的信息，单是对信息作辨别和筛选就将花费人们很多时间，这也造成了选择的障碍。为了解决这一问题，标签自动生成系统应运而生。通过对信息进行主体提取，内容总结，关键词分析，生成与信息对应的标签集。利用标签集，人们可以快速掌握信息大意，同时为信息分类提供依据，这都能帮助人们做出选择。

目前，对标签自动生成系统的研究很多，但主要着重于文本的处理，即针对一篇文档，自动生成与之相关的标签。Jialie Shen[1]研究了音乐标签的自动生成，采用的方法主要是提取音频的特征，再以手动标注的音乐作为训练素材，通过机器学习的方法生成分类器，用这个分类器为音乐添加标签。Stefan Siersdorfer[2]提出了视频标签的补充方案，利用已有的视频比较技术，将相似视频已有的标签进行合并，不过这不是真正意义上的标签自动生成。因此，现阶段对视频添加标签还主要依赖于人工处理，对电视节目标签自动生成系统的研究还是一个空缺。

[1]Jialie Shen，Meng Wang，Shuicheng Yan，HweeHwa Pang，Xiansheng Hua Effective Music Tagging through Advanced Statistical Modeling SIGIR 2010；

[2]Stefan Siersdorfer，Jose San Pedro，Mark Sanderson Automatic Video Tagging using Content Redundancy SIGIR 2009。

发明内容

本发明针对现有技术中存在的上述不足，提供了一种电视节目标签自动生成系统，仅需要为系统提供电视节目的名称，系统就可以自动从网上获取与该节目相关的信息，通过进一步对获取的信息进行归纳和扩展，系统将返回与该节目相关的一个标签集。

本发明是通过以下技术方案实现的。

一种电视节目标签自动生成系统，包括依次连接的节目信息获取模块、信息关键词提取模块、关键词扩展模块及标签生成模块，还包括与关键词扩展模块相连接的知识库模块，其中：

-节目信息获取模块，用于从网上抓取与节目相关的页面，通过对页面的修剪和过滤，得到描述节目信息的主体内容；

-信息关键词提取模块，用于汇总节目信息获取模块得到的主体内容，并从主体内容中抽取出关键词；

-知识库模块，用于建立词条间的网络关系，以便用于对获取的关键词进行扩展；

-关键词扩展模块，用于利用知识库模块提供的网络，将信息关键词提取模块得到的关键词进行扩展，得到一个更大的词条集；

-标签生成模块，用于将得到的所有关键词的关联词条集进行处理，滤除噪声，计算分数，并最终生成节目的标签集。

所述节目信息获取模块包括HTML解析器，接收需要生成标签的目标电视节目集合，在搜索引擎的辅助下，为每个节目获取网络页面，所述页面通过HTML解析器的处理，得到主体内容，所述主体内容传递给信息关键词提取模块作进一步处理。

所述信息关键词提取模块包括分词与词性标注器，得到描述每个节目信息的主体内容后，通过分词与词性标注器对内容进行划分，并仅保留名词词性的词语。

所述名词词性的词语通过统计方法识别关键词。

所述统计方法包括以下步骤：

第一步，对于特定的某个节目，将词语划分为两组，一组来源于与该节目相关的网络页面，一组来源于节目集合中的其他网络页面；

第二步，对这两组词语计算词频，并统计出均值和标准差，这样，每个词语都用4个统计量描述其特征，所述4个统计量分别为这个词语在与节目相关页面的词频均值、标准差以及这个词语在与节目不相关页面的词频均值和标准差；

第三步，根据4个统计量间的关系，将最能表现节目特征的关键词识别出来。

所述知识库模块以百度百科作为数据源，以图的形式进行存储。

所述百度百科的组织方式包括以下步骤：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海交通大学，未经上海交通大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210110031.3/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]电视节目标签自动生成系统无效

专利文献下载