[发明专利]语音处理方法、设备及存储介质有效
申请号: | 202111365392.8 | 申请日: | 2021-11-18 |
公开(公告)号: | CN113808612B | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 王宪亮;索宏彬 | 申请(专利权)人: | 阿里巴巴达摩院(杭州)科技有限公司 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L15/26 |
代理公司: | 北京同钧律师事务所 16037 | 代理人: | 李小波;许怀远 |
地址: | 310023 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 处理 方法 设备 存储 介质 | ||
1.一种语音处理方法,其特征在于,包括:
获取会议系统采集的多个参会角色对应的单通道语音;
根据所述单通道语音中的角色变更点信息,对所述单通道语音进行分割,得到多个语音片段;其中,所述角色变更点信息用于表示所述单通道语音中发言角色发生变更的位置;所述多个语音片段包括多个第一片段和至少一个第二片段,且任一第一片段的长度大于任一第二片段的长度;
对所述多个第一片段进行聚类,并将所述至少一个第二片段分配到聚类后得到的类别中,得到所述单通道语音的角色分离结果;
根据所述角色分离结果与所述单通道语音对应的文本信息,输出各个参会角色对应的发言文本;
其中,每一语音片段为单个角色对应的语音。
2.一种语音处理方法,其特征在于,包括:
根据待处理语音中的角色变更点信息,对所述待处理语音进行分割,得到多个语音片段;其中,所述角色变更点信息用于表示所述待处理语音中发言角色发生变更的位置;所述多个语音片段包括多个第一片段和至少一个第二片段,且任一第一片段的长度大于任一第二片段的长度;
对所述多个第一片段进行聚类,并将所述至少一个第二片段分配到聚类后得到的类别中,得到所述待处理语音的角色分离结果;
其中,每一语音片段为单个角色对应的语音。
3.根据权利要求2所述的方法,其特征在于,根据待处理语音中的角色变更点信息,对所述待处理语音进行分割,得到多个语音片段,包括:
通过语音活动端点检测确定所述待处理语音中的至少一个有效语音片段;
对所述有效语音片段进行角色变更点检测,并根据得到的角色变更点信息,将所述至少一个有效语音片段分割为所述多个语音片段。
4.根据权利要求3所述的方法,其特征在于,对所述有效语音片段进行角色变更点检测,包括:
基于预设窗长和/或滑动时长确定所述有效语音片段对应的至少一个语音窗,并提取所述语音窗的特征;
根据相邻语音窗的特征的相似度,确定角色变更点信息。
5.根据权利要求4所述的方法,其特征在于,基于预设窗长和/或滑动时长确定所述有效语音片段对应的至少一个语音窗,并提取所述语音窗的特征,包括:
采用多线程对各有效语音片段进行并行化处理,对每一有效语音片段,基于预设窗长和/或滑动时长确定所述有效语音片段对应的至少一个语音窗,并提取所述语音窗的特征;
相应的,根据得到的角色变更点信息,将所述至少一个有效语音片段分割为所述多个语音片段,包括:
将并行化处理后得到的特征按时间顺序进行拼接,并结合角色变更点信息,将所述至少一个有效语音片段分割为所述多个语音片段。
6.根据权利要求4所述的方法,其特征在于,对所述多个第一片段进行聚类,并将所述至少一个第二片段分配到聚类后得到的类别中,包括:
对于每一第一片段,将所述第一片段对应的至少一个语音窗的特征求均值,得到所述第一片段对应的特征,并根据多个第一片段对应的特征,对多个第一片段进行聚类;
对于每一第二片段,将所述第二片段对应的至少一个语音窗的特征求均值,得到所述第二片段对应的特征,并根据至少一个第二片段对应的特征,将所述至少一个第二片段分配到聚类后得到的类别中。
7.根据权利要求2-6任一项所述的方法,其特征在于,对所述多个第一片段进行聚类,包括:
遍历2至预设类别数,在遍历到的类别数下通过有监督聚类算法对所述多个第一片段进行聚类,得到所述类别数对应的聚类结果;
根据不同类别数对应的聚类结果,确定所述待处理语音对应的角色数目和聚类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴达摩院(杭州)科技有限公司,未经阿里巴巴达摩院(杭州)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111365392.8/1.html,转载请声明来源钻瓜专利网。