[发明专利]一种基于SVM的音频分类方法及系统在审
申请号: | 201811581291.2 | 申请日: | 2018-12-24 |
公开(公告)号: | CN109766929A | 公开(公告)日: | 2019-05-17 |
发明(设计)人: | 韦鹏程;姜娇;周震 | 申请(专利权)人: | 重庆第二师范学院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/63 |
代理公司: | 重庆市信立达专利代理事务所(普通合伙) 50230 | 代理人: | 包晓静 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频分类 特征分析 音频数据 音频特征提取 音频信号特征 结构化信息 分类效果 检索音频 模式识别 时域特性 特征提取 音频分割 音频信号 语义内容 重要手段 自动分类 音频帧 分类 平滑 和频 算法 分析 分割 | ||
本发明属于音频数据分析技术领域,公开了一种基于SVM的音频分类方法及系统,音频自动分类和分割是在音频中提取结构化信息和语义内容的重要手段,是理解、分析和检索音频内容的基础;从本质上说,音频数据的分类是一个模式识别问题,它包括两个基本方面:特征提取选择和分类;如何在音频信号中提取最能代表音频信号特征的信息,对于音频分类是至关重要的;音频特征提取可以基于音频帧的特征分析和提取方法,以及基于音频的特征分析和提取方法;在提取这些特性的方法中,分别使用时域特性和频域特性来提取音频的特性。本发明基于SVM的音频分类算法具有良好的分类效果,平滑的音频分割结果更加准确。
技术领域
本发明属于音频数据分析技术领域,尤其涉及一种基于SVM的音频分类方法及系统。
背景技术
目前,业内常用的现有技术是这样的:
今天的人类社会已经进入了数字化时代。随着计算机技术、网络技术和通信技术的不断发展,图像、视频、音频等多媒体信息已逐渐成为信息处理领域信息媒体的主要形式。其中,音频占有非常重要的位置。音频是多媒体的重要组成部分。与图像和视频相比,音频不仅具有独特的特征,而且音频数据量小,处理速度快,引起了人们的广泛关注。音频表达的形式多种多样,满足了人们在生活、工作、娱乐等方面的需求,互联网上的音频数据资源继续以前所未有的速度增长。从互联网上的大量音频数据中快速有效地获取和处理所需要的有效信息,是一种很好的分析、分类和检索数据的方法。如何有效地组织和管理这些音频资源,使人们更容易找到所需的音频片段已成为迫切需要。
现在,关于音频分类问题的研究不仅仅是对音乐和语言的分类。分类的类别将随着人们的需求而改变,促进人们的工作和生活。一般来说,音频分类最基本的对象是语音、音乐和静音;进一步分为五类:纯音、音乐、环境声音、背景音和哑音。音频分类是音频信息深层处理的基础,是音频结构的核心技术,是提取音频结构和内容语义的重要手段。它根据所感知的特点或表达的内容,将音频数据分为不同的类别,并在语音检索、基于内容的音频分割和音频监督中起着重要的作用。一方面,它可以作为连续语音识别的初始化过程,禁止音频流中的非语音流进入语音识别器,提高语音识别的准确性,缩短识别时间。另一方面,这也是音乐类型分类的第一步。对于一个给定的音频,我们可以通过音频分类对它进行分类和分割。在判断之后,对不同类型的音频数据进行不同的处理,以获得判断结果。在本例中,对不同类型的音频数据采用不同的处理方法,不仅可以缩短处理过程的时间和空间消耗,而且可以同时提高处理精度。目前,该领域的研究主要集中在三个方面:音频特征分析和提取、分类器设计和实现,以及音频分割方法。
音频的分类可以说是一种模式识别的过程。它的研究重点通常包括两个基本方面:音频特征分析和提取,分类器的设计和实现。音频分类的实质是模式识别过程,主要实现了以下几点:(1)预处理。在处理音频文件之前,我们需要预先处理它,即把音频流划分为更小的单元。通过对这些较短的音频单元进行分类来对音频文件进行分类。音频信号的预处理包括预重点、框架和窗口。(2)提取音频特性进行分类。特征的选择和提取是模式识别系统中最重要的部分,当然也是音频分类中最重要的部分。(3)功能筛查。多类音频分类,多级二级分类,为了更好地区分每一级的两种音频数据,将使用特征选择方法来选择最适合每个层次分类的特征集。(四)分类器的选择。使用机器学习自动对音频信号进行分类不仅减少了人力,而且还减少了时间,提高了效率。常用的音频分类器的实现主要分为两类:基于阈值和统计的模型。
在音频分类领域,分类器实现方法的早期实现是基于阈值的。这种分类方法需要大量的训练数据,并且由于在不同的应用程序中所选择的阈值通常是不同的,所以它并不是通用的,而阈值判断方法只能在音频粗级上实现分类(如分类音乐、静音、声音等),不能实现对音频数据的细分类(如对掌声的识别,喊叫,爆炸声等)。因此,为了克服这些缺点,人们提出了基于统计模型的音频分类。这种分类方法不存在阈值,是一种基于统计理论的数据训练得到的分类模型。它不仅能识别粗糙级别的音频数据,还能识别精细的音频数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆第二师范学院,未经重庆第二师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811581291.2/2.html,转载请声明来源钻瓜专利网。