[发明专利]一种分析和提取设定场景的音频数据的方法无效
| 申请号: | 200910077312.1 | 申请日: | 2009-02-17 |
| 公开(公告)号: | CN101477798A | 公开(公告)日: | 2009-07-08 |
| 发明(设计)人: | 李祺;马华东 | 申请(专利权)人: | 北京邮电大学 |
| 主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/14;G10L13/08;G06F17/30 |
| 代理公司: | 北京德琦知识产权代理有限公司 | 代理人: | 夏宪富 |
| 地址: | 100876*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 分析 提取 设定 场景 音频 数据 方法 | ||
技术领域
本发明涉及一种多媒体信息的分析方法,确切地说,涉及一种分析和提取设定场景的音频数据的方法,属于多媒体信息处理中的音频信号分析和音频语义理解的人工智能技术领域。
背景技术
随着多媒体技术的不断发展,音视频信息在人们的工作、文体和娱乐生活中起着日益重要的作用。例如,互联网上,每天都有许多用户上传大量的音视频信息。但是,对于每个用户,这些浩如烟海音视频信息中,只有少数是他(她)感兴趣的。因此,如何从大量的音(视)频信息中快速、准确地检索出人们感兴趣的场景或片段,已经成为当前多媒体技术中音视频分析的挑战性研究热点。
在实际应用中,用户通常有以下两个要求:(1)从大量音视频文件中(例如土豆、酷睿等音视频网站上)查找出其感兴趣的某个或某些音频文件,例如从众多的动作片中查找出其中有枪战场景的视频文件;(2)从一大段音视频文件中选取其中真正感兴趣的片段,例如在幸运52类的电视节目中,用户希望选取其中观众情绪出现高潮的部分片段。这就需要人们从音视频文件的内容出发,对这些音视频文件中的特定场景进行分析和标注。且在标注多媒体信息的过程中,音视频分析是相互结合的。例如,需要检测与大海有关的片段时,从视频出发对背景颜色进行分析通常能取得较好效果;而在另外一些场合中,要从动作片中找出枪战发生的视频片段,就需要从音频角度入手,对枪声和爆炸声进行检索和定位。
目前,对于音频数据的分析方法主要分为两个阶段:第一阶段为低层语义分析,又称基本音频事件分析,它是针对一段时间很短(10ms-100ms)的音频数据进行分析,判断该短时间内的音频数据所描述的事件类型(如语音、汽车声、枪声等)。现阶段的低层语义分析工作主要是对音频数据的分割与分类。第二阶段为高层语义分析,也称为音频场景分析,这阶段的工作是针对较长时间(5s以上)的音频数据进行分析。
针对音频数据的分割与分类,目前国内外都做了大量工作。例如,有人利用隐马尔科夫模型为掌声、笑声、欢呼声等基本音频事件建立各种模型,在获得一个短时间内的音频数据后,科技人员通过调用程序提取这段音频数据的特征参数,再将特征参数输入到已经建立好的各个模型中进行对比,得到该短时音频数据与各个模型之间的相似程度,并根据这些相似程度对音频片断进行分类。还有人利用支持向量机等软件工具对音频数据进行分类。但是,只对这些低层语义信息进行分析还不能满足用户需求。例如,从动作片中提取出一个长达5分钟的汽车相互追逐的音频片段后,通过低层语义分析后,只能得到一串基本音频事件的序列,例如:第0-100ms是汽车引擎声,第100-200ms是汽车引擎声,第200-300ms是背景噪音,第300-400ms是背景噪音,第400-500ms是警笛声,第500ms-600ms是刹车声,......显然,这组基本事件序列对于用户既不直观,也很难发挥其作用,有时甚至会造成用户的困惑。但是,如果告诉用户这5分钟音频数据描述的是一个汽车相互追逐的场景,那么用户的感觉就会清晰很多,后者便是高层语义分析。
近年来,高层语义分析已经成为多媒体技术的研究热点,有些科技人员将动态贝叶斯网络用于多媒体技术,利用不同对象(如沙发、高山、小鸟)之间的关联性对“户内”和“户外”两种场景进行判断。这种方法为高层语义分析提供了思路,但是,在分析音频数据的过程中,很难直接通过分析音视频文件的低层特征来实现。例如,根本无法根据音频数据的内容判断什么是“沙发”。有的科技人员开始在提取低层语义信息的基础上,分析高层语义信息的涵义,并提取低层语义(基本音频事件)与高层语义(音频场景)两者特征之间的联系。例如,有些致力于体育内容分析的人员在体育比赛的音频数据中提取出欢呼声、掌声和哨声等基本音频事件,并用这些音频事件来标注比赛的高潮片断,即进行高潮场景分析。还有些人员从动作电影中检测出枪声、爆炸声、汽车引擎声和急刹车声等音频事件,并用来提取枪战场景和汽车追逐场景。
在利用基本音频事件对音频场景信息进行分析时,现有技术通常采用基于统计的方法或基于逻辑规则的方法。下面分别介绍之:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910077312.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种光控真空开关模块
- 下一篇:一种在背景画面上显示叠加图形的方法及显示装置





