[发明专利]音频信号处理、会议记录与呈现方法、设备、系统及介质在审
申请号: | 202110105959.1 | 申请日: | 2021-01-26 |
公开(公告)号: | CN114792522A | 公开(公告)日: | 2022-07-26 |
发明(设计)人: | 郑斯奇;索宏彬 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G10L17/06 | 分类号: | G10L17/06;G10L25/51;G06K9/62 |
代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 刘戈;张爱 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 信号 处理 会议记录 呈现 方法 设备 系统 介质 | ||
1.一种音频信号处理方法,其特征在于,包括:
识别在多人发言场景中采集到的音频信号中的发言人变更点;
根据所述发言人变更点将所述音频信号切分为多个音频片段,并提取所述多个音频片段的声纹特征;
根据所述多个音频片段的时长和声纹特征,对所述多个音频片段进行分层次聚类,以得到对应同一发言人的音频片段;
为对应同一发言人的音频片段添加相同的用户标记,以得到添加用户标记的音频信号。
2.根据权利要求1所述的方法,其特征在于,根据所述多个音频片段的时长和声纹特征,对所述多个音频片段进行分层次聚类,以得到对应同一发言人的音频片段,包括:
根据所述多个音频片段的时长,对所述多个音频片段进行分层,以得到对应不同时长范围的多层音频片段;
根据所述多个音频片段对应的声纹特征,按照时长范围由长到短的顺序对所述多层音频片段进行分层次聚类,以得到至少一个聚类结果,每个聚类结果中包括对应同一发言人的音频片段。
3.根据权利要求2所述的方法,其特征在于,根据所述多个音频片段的时长,对所述多个音频片段进行分层,以得到对应不同时长范围的多层音频片段,包括:
根据所述多个音频片段的时长和预先设定的各层的时长阈值,对所述多个音频片段进行分层,以得到对应不同时长范围的多层音频片段;
其中,层数越小,对应的时长阈值越大,且每层中音频片段的时长大于或等于该层的时长阈值。
4.根据权利要求3所述的方法,其特征在于,根据所述多个音频片段对应的声纹特征,按照时长范围由长到短的顺序对所述多层音频片段进行分层次聚类,以得到至少一个聚类结果,包括:
对于第一层中的音频片段,根据第一层中音频片段对应的声纹特征,对第一层中的音频片段进行聚类,得到至少一个聚类结果;
对于非第一层中的音频片段,按照层数由小到大的顺序,依次根据非第一层中音频片段对应的声纹特征,将非第一层中的音频片段向已有的聚类结果进行聚类;以及
若非第一层中存在未被聚类到已有聚类结果中的剩余音频片段,则根据所述剩余音频片段对应的声纹特征对所述剩余音频片段进行聚类,以产生新的聚类结果,直至所有层上的每个音频片段均被聚类到一个聚类结果中为止。
5.根据权利要求3所述的方法,其特征在于,识别在多人发言场景中采集到的音频信号中的发言人变更点,包括:
对所述音频信号进行声源定位,以得到声源位置的变更点;
根据所述声源位置的变更点,确定所述音频信号中的发言人变更点;其中,由所述发言人变更点切分出的每个音频片段对应有唯一的声源位置。
6.根据权利要求5所述的方法,其特征在于,根据所述多个音频片段对应的声纹特征,按照时长范围由长到短的顺序对所述多层音频片段进行分层次聚类,以得到至少一个聚类结果,包括:
根据所述多个音频片段对应的声纹特征和声源位置,按照时长范围由长到短的顺序对所述多层音频片段进行层次聚类,以得到至少一个聚类结果,每个聚类结果中包括对应同一发言人的音频片段。
7.根据权利要求6所述的方法,其特征在于,根据所述多个音频片段对应的声纹特征和声源位置,按照时长范围由长到短的顺序对所述多层音频片段进行层次聚类,以得到至少一个聚类结果,包括:
对于第一层的音频片段,根据第一层中音频片段对应的声纹特征和声源位置,对第一层中的音频片段进行聚类,得到至少一个聚类结果;
对于非第一层中的音频片段,按照层数由小到大的顺序,依次根据非第一层中音频片段对应的声纹特征和声源位置,将非第一层中的音频片段向已有的聚类结果进行聚类;以及
若非第一层中存在未被聚类到已有聚类结果中的剩余音频片段,则根据所述剩余音频片段对应的声纹特征和声源位置对所述剩余音频片段进行聚类,以产生新的聚类结果,直至所有层上的每个音频片段均被聚类到一个聚类结果中为止。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110105959.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据组装方法、装置、电子设备及介质
- 下一篇:氙灯电源、净化装置及制冷设备