[发明专利]音频处理方法和音频处理设备有效
| 申请号: | 201110049298.1 | 申请日: | 2011-03-01 |
| 公开(公告)号: | CN102655002A | 公开(公告)日: | 2012-09-05 |
| 发明(设计)人: | 鲁耀杰;尹悦燕;郑继川 | 申请(专利权)人: | 株式会社理光 |
| 主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/08;G10L17/00 |
| 代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 万里晴 |
| 地址: | 日本*** | 国省代码: | 日本;JP |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 音频 处理 方法 设备 | ||
1.一种音频处理方法,所述方法包括以下步骤:
a)根据音频物理特性将音频初始地分段为一个或多个片段;
对于所述一个或多个片段中的每个片段:
b)在该片段中的多个时间点的每个处,提取一种或多种音频特征作为音频特征向量;
c)针对所述多个时间点的每个,通过所述音频特征向量来计算该时间点的贝叶斯信息准则值;
d)通过各个时间点的贝叶斯信息准则值中的最大值所对应的时间点,将该片段划分为第一部分和第二部分;以及
e)通过第一部分和第二部分中的由各个时间点的贝叶斯信息准则值构成的相对于时间点的两个曲线的分布,来判断该最大值所对应的时间点是否是说话人改变点。
2.根据权利要求1的方法,其中,对于所述一个或多个片段中的每个片段,通过第一部分和第二部分中的由各个时间点的贝叶斯信息准则值构成的相对于时间点的两个曲线的分布,来判断该最大值所对应的时间点是否是说话人改变点的步骤包括:
计算该最大值所对应的时间点是说话人改变点的概率,以及
将所述概率与预定阈值比较,如果该概率大于或等于该预定阈值,则判断该最大值所对应的时间点是说话人改变点,
其中,如果第一部分和第二部分中的两个曲线的幅度越靠近该最大值所对应的时间点处越单调地升高且升高得越高,则该最大值所对应的时间点是说话人改变点的概率越大。
3.根据权利要求2的方法,其中,在计算该最大值所对应的时间点是说话人改变点的概率的步骤中:
将第一部分的曲线划分为多个第一时间段,其中,在每个第一时间段中,第一部分的曲线对时间求积分所得的面积值等于预定面积值;
将第二部分的曲线划分为多个第二时间段,其中,在每个第二时间段中,第二部分的曲线对时间求积分所得的面积值等于所述预定面积值;
计算在各个第一时间段中的曲线的均值;
计算在各个第二时间段中的曲线的均值;
以第一部分的第一个第一时间段中的曲线的均值为基础,如果下一第一时间段中的曲线的均值比前一第一时间段中的曲线的均值大,则加上下一第一时间段中的曲线的均值与前一第一时间段中的曲线的均值之间的差值,如果下一第一时间段中的曲线的均值比前一第一时间段中的曲线的均值小,则减去下一第一时间段中的曲线的均值与前一第一时间段中的曲线的均值之间的差值的倍数,以获得第一部分的概率;
以第二部分的最后一个第二时间段中的曲线的均值为基础,如果前一第二时间段中的曲线的均值比下一第二时间段中的曲线的均值大,则加上前一第二时间段中的曲线的均值与下一第二时间段中的曲线的均值之间的差值,如果前一第二时间段中的曲线的均值比下一第二时间段中的曲线的均值小,则减去前一第二时间段中的曲线的均值与下一第二时间段中的曲线的均值之间的差值的倍数,以获得第二部分的概率;以及
以预定权重来组合第一部分的概率和第二部分的概率来获得该片段中该最大值所对应的时间点是说话人改变点的概率。
4.根据权利要求1-3中的任一的方法,其中:
在步骤a)中,根据音频物理特性将音频初始地分段为一个或多个片段使得每个片段足够短以仅包含一个或两个说话人的声音。
5.根据权利要求1-3中的任一的方法,还包括:
f)通过各个片段中在步骤e)中所判断的各个说话人改变点以及在步骤a)中初始分段的各个分段点,将所述音频分段为新的片段,针对两两相邻的两个新的片段所合成的一个片段,通过重复步骤b)到e)来进一步判断该合成的片段中是否存在新的说话人改变点;以及
g)根据所有说话人改变点来对所述音频进行最终地分段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社理光,未经株式会社理光许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110049298.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:植入式永久性输精管支架
- 下一篇:一种摆动式超声探头





