[发明专利]一种多模态信息融合的足球视频事件检测与语义标注方法有效

申请号：	201410449960.6	申请日：	2014-09-04
公开（公告）号：	CN104199933B	公开（公告）日：	2017-07-07
发明（设计）人：	于俊清;王赠凯;何云峰	申请（专利权）人：	华中科技大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	华中科技大学专利中心42201	代理人：	曹葆青
地址：	430074 湖北***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种多模态信息融合足球视频事件检测语义标注方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于基于内容的视频检索领域，具体涉及一种多模态信息融合的足球视频事件检测和语义标注方法。

背景技术

随着计算机技术，存储技术和网络技术的高速发展以及各种数码终端和移动设备的不断更新，视频数据量以爆炸式的速度不断增长。同时，由于获取信息的时间、地点和方式逐渐不受限制，使得人们对于视频检索的需求大大增加。如何使人们快速从海量的视频数据中找到自己感兴趣的视频片段已成为一种迫切的需求，能够满足这一需求的技术便是目前人们普遍关注的基于内容的视频检索(CBVR，Content Based Video Retrieval)技术。视频标注是CBVR领域的关键技术，也称为视频概念检测或者高层语义分析，是指根据视频所体现的内容按概念对其赋予标识和语义。视频标注是建立视频索引，实现基于内容的视频检索的基础。从手工标注、半自动标注到自动标注，视频标注已经成为CBVR领域的研究难点和热点，视频标注的准确性和语义丰富性是视频检索质量的关键因素，也是基于内容的视频检索系统成败的关键。由于视频数据本身的复杂性、不确定性和现有的条件所限，针对通用视频的自动标注很难实现，目前人们还无法利用通用的特征或方法对不同类型内容的视频进行分析。体育视频分析是近几年非常受关注的视频类型，而足球运动作为世界上最流行的体育运动，有着非常广泛的受众群体和巨大的商业价值。以足球视频为研究对象来研究如何从大量的足球视频找到用户感兴趣的视频内容，并能对其进行详细的语义描述，满足广大用户的需求，具有很高学术价值和应用前景。

针对足球视频事件检测和标注的研究吸引国内外学术界和工业界的众多研究人员和研究机构重视，也涌现出许多好的研究成果。从基于单一模态的听觉、视觉等特征的足球视频分析，到基于多模态特征的足球视频分析；从利用启发式规则的事件检测方法，到利用各种机器学习模型的事件检测方法，研究人员提出了许多方法，在一定程度上推动了足球视频检索技术的发展。然而，受限于人工智能和机器视觉领域的发展，视频分析领域存在众所周知的“语义鸿沟”(Semantic Gap)问题，即视频底层特征和高层语义之间存在着语义隔阂，如何有效地填补“语义鸿沟”从而提高语义级视频检索效率和服务质量已经成为CBVR的研究难点和最为关键的问题。例如，在足球比赛视频中，目前通过音视频分析，可以初步确定一些典型事件(射门、进球、犯规、角球等)的位置，但无法确定是哪位球员通过何种方式射门或者进球。现有的研究表明，“语义鸿沟”的存在导致单纯依靠视频数据本身内在的音视频特征分析，很难准确地检测出视频中的事件，并自动标注视频事件的语义，视频标注结果的粒度和准确性无法满足实际的需求，已经成为阻碍视频搜索引擎实用化的瓶颈。

为了实现视频事件的检测和语义标注，研究人员寻求利用视频外部资源来辅助视频内容的分析。目前所利用的视频外部资源主要有转录字幕和网络直播文本。转录字幕是通过语音识别技术转录生成的文字，如新闻解说和场景对话等。但转录字幕的输出质量依赖于视频的质量和语音识别技术，并且转录字幕包含大量与视频事件无关的描述，很难得到有效利用。网络直播文本是在体育比赛进行时，专业的体育网站在其页面上进行的同步文字直播，具有较强的实时性。现有的研究工作主要基于具有精确时间信息的网络直播文本，通过对视频内时钟的识别来建立文本描述和视频内容的对应关系。然而，第一，大多数网络直播文本的时间信息并不精确，一般是分钟级的时间信息；第二，体育网站只对国际上的重要或著名赛事进行网络文字直播，还有许多赛事只进行赛后的新闻报道，也就是说网络直播文本的通用性不强；第三，由于视频时间条存在透明、位置变化、风格变化、时隐时现、分辨率不高等不利因素，视频时钟的精确识别还面临较大的挑战。

发明内容

为了解决上述技术问题，本发明提供一种多模态信息融合的足球视频事件检测与语义标注方法，其目的在于充分利用视频内在视听特征，并结合视频外部文本信息，解决足球视频事件的检测和富语义标注问题，为实现基于内容的足球视频检索打下坚实的基础。

实现本发明目的所采用的具体技术方案如下：

一种多模态信息融合的足球视频事件检测与语义标注方法，通过对互联网文本和视频内在视听特征等多模态信息的综合利用，实现足球视频事件的检测和富语义标注，包括以下步骤：

(1)从互联网上爬取足球比赛对应的赛况报道文本，利用预先建立的LSA模型计算赛况报道文本中各语句的潜在语义空间查询向量；并计算该查询向量与各种文本事件类型的潜在语义空间向量的余弦相似度，将其归类为具有最大相似度的事件类别；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华中科技大学，未经华中科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410449960.6/2.html，转载请声明来源钻瓜专利网。

上一篇：一种扫描二维码安装手机软件的方法以及装置
下一篇：数据采集及处理的系统及方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种多模态信息融合的足球视频事件检测与语义标注方法有效

专利文献下载