[发明专利]音频处理方法和音频处理设备有效

申请号：	201110049298.1	申请日：	2011-03-01
公开（公告）号：	CN102655002A	公开（公告）日：	2012-09-05
发明（设计）人：	鲁耀杰;尹悦燕;郑继川	申请（专利权）人：	株式会社理光
主分类号：	G10L15/04	分类号：	G10L15/04;G10L15/08;G10L17/00
代理公司：	北京市柳沈律师事务所 11105	代理人：	万里晴
地址：	日本***	国省代码：	日本;JP
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音频处理方法设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种音频处理方法和音频处理设备，且更具体地，涉及一种用于检测说话人改变点的音频处理方法和音频处理设备。

背景技术

现今，随着数据量的不断增加，越来越需要从大量数据中提取有意义的信息。一种这样的应用是从音频中提取信息。这种音频可以包括例如语音音频、新闻广播、电话交谈、或非语音的音频、诸如音乐或背景噪声等。但是，音频文件通常被认为是仅具有诸如名称、文件格式、采样率等的最原始信息标签的晦涩字节。为了使得音频文件更容易访问和处理，需要从音频文件中提取更多的信息、诸如音频数据的重要信息之一的说话人相关的信息，来有助于语音识别、音频检索等应用，来用于说话人跟踪麦克风、说话人自动对焦的摄像系统、机器人(人机对话)等的产品。为了从音频中提取这些有意义的信息，一般需要通过找到诸如说话人改变点的音频改变点来对音频进行分段，使得每个音频片段可能仅包括同一说话人、或同一声学条件、或同一类别的音频，由此单独地处理每个音频片段，例如对每个音频片段建立同一声学模型等，从而实现语音识别、音频检索等的目的。

已经提出了很多技术来对音频进行分段。其中广泛应用的一种方式是基于贝叶斯信息准则(Bayesian Information Criterion，BIC)来对音频进行分段。BIC用于通过确定信号特征改变的最可能的位置来确定音频片段分界的位置。BIC给出了一种准则来确定在音频中某个点处的改变是否是显著的。

在Chen S，Gopalakrishnan P的论文“Speaker，environment and channel change detection and clustering via the Bayesian information criterion”，DARPABroadcast News Trans and Under Workshop，1998.8中描述了如何使用BIC准则来确定在音频中的改变点。首先，BIC方法从整个音频段中针对每个时间点提取倒频向量(cepstral vector)的序列，然后通过高斯模型来计算在每个时间点处的BIC值，并将BIC值之间的差ΔBIC的大于0的最大值所处的时间点认为是音频改变点。

在美国专利US7243062中也公开了一种使用BIC来找到音频改变点并对音频序列进行分段的方法和装置。其沿着音频序列形成一系列帧，且对于每个帧提取数据特征以形成数据特征的序列。通过拉普拉斯分布模型来对数据特征的序列计算BIC的值，并计算BIC之间的差ΔBIC，将ΔBIC的大于0的最大值所处的时间点认为是音频改变点。

发明内容

现有技术都使用ΔBIC的最大值来判断音频改变点，而没有考虑ΔBIC的值的趋势、分布、曲线的形状等。因此，当在音频中本不应该是音频改变点的时间点处发生了波形上的突变、例如同一说话人突然提高嗓音时，现有的基于ΔBIC的最大值的判断方式可能将该点判断为说话人改变点，但此时说话人实际并未改变，这样将导致说话人改变点的判断错误，使得后续的说话人相关的处理产生偏差或造成不必要的计算资源浪费。

因此，需要一种更准确地检测音频改变点的方法和设备。

根据本发明的一个方面，提供一种音频处理方法，所述方法包括以下步骤：a)根据音频物理特性将音频初始地分段为一个或多个片段；对于所述一个或多个片段中的每个片段：b)在该片段中的多个时间点的每个处，提取一种或多种音频特征作为音频特征向量；c)针对所述多个时间点的每个，通过所述音频特征向量来计算该时间点的贝叶斯信息准则值；d)通过各个时间点的贝叶斯信息准则值中的最大值所对应的时间点，将该片段划分为第一部分和第二部分；以及e)通过第一部分和第二部分中的由各个时间点的贝叶斯信息准则值构成的相对于时间点的两个曲线的分布，来判断该最大值所对应的时间点是否是说话人改变点。

在本发明的一个实施例中，可以对于所述一个或多个片段中的每个片段，通过第一部分和第二部分中的由各个时间点的贝叶斯信息准则值构成的相对于时间点的两个曲线的分布，来判断该最大值所对应的时间点是否是说话人改变点的步骤包括：计算该最大值所对应的时间点是说话人改变点的概率，以及将所述概率与预定阈值比较，如果该概率大于或等于该预定阈值，则判断该最大值所对应的时间点是说话人改变点，其中，如果第一部分和第二部分中的两个曲线的幅度越靠近该最大值所对应的时间点处越单调地升高且升高得越高，则该最大值所对应的时间点是说话人改变点的概率越大。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于株式会社理光，未经株式会社理光许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201110049298.1/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]音频处理方法和音频处理设备有效

专利文献下载