[发明专利]二次分割聚类、自动语音识别和转录生成的系统及方法在审
申请号: | 201980070755.X | 申请日: | 2019-10-30 |
公开(公告)号: | CN113348504A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | J-P·罗比肖;A·斯库里欣;M·热泰;P·E·斯坦尼斯拉夫维奇 | 申请(专利权)人: | 雷夫.康姆有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G01L21/00 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 蔡洪贵 |
地址: | 美国加*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 二次 分割 自动 语音 识别 转录 生成 系统 方法 | ||
1.一种包括ASR和分割聚类的转录生成方法,所述方法包括:
在平台模块接收音频文件;
将所述音频文件划分为多个块;
将所述多个块的每个实例发送到语音服务模块;
对所述多个块的每个实例进行语音到文本转换;
将所述多个块的每个实例的文本返回到所述平台模块;
在所述平台模块合并所述多个块的每个实例的文本,以产生音频文件转录;
将所述音频文件和所述多个块发送到分割聚类模块;
对所述多个块执行第一次分割聚类,以产生多个分割聚类块;
对所述多个分割聚类块和所述音频文件执行第二次分割聚类,以产生经分割聚类的音频文件;
合并所述音频文件转录和所述经分割聚类的音频文件,以产生最终转录。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述音频文件转码成已知的代码。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述音频文件转录发送到后处理模块;
将标点符号和大小写应用到所述音频文件转录。
4.根据权利要求1所述的方法,其特征在于,所述多个分割聚类块包括多个段,每个段具有说话人识别信息。
5.根据权利要求4所述的方法,其特征在于,所述说话人识别信息是I-vector。
6.根据权利要求4所述的方法,其特征在于,在所述多个分割聚类块中的每个中,将所述多个段中包括统计学相似的说话人识别信息的段聚簇为属于多个说话人中的相应说话人。
7.根据权利要求6所述的方法,其特征在于,所述第二次分割聚类包括给所述多个分割聚类块中的每个的多个说话人中的每个赋予唯一识别符。
8.根据权利要求7所述的方法,其特征在于,所述第二次分割聚类包括,针对所述多个段中与每个唯一识别符关联的关联段,对所述关联段的说话人识别信息求均值,以产生均值说话人识别信息。
9.根据权利要求8所述的方法,其特征在于,所述第二次分割聚类包括,根据所述多个段中与每个唯一识别符关联的关联段的均值说话人识别信息之间的相关性,将所述多个块中的所有块的多个段中的经识别段分配到最终说话人。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:以固定且有形的格式输出所述最终转录。
11.一种包括ASR和分割聚类的转录生成系统,所述系统包括:
平台模块;
与所述平台模块通信的语音服务模块;
与所述平台模块通信的分割聚类模块,其中,所述平台模块、所述语音服务模块和语音服务模块被配置成:
在所述平台模块接收音频文件;
将所述音频文件划分为多个块;
将所述多个块的每个实例发送到所述语音服务模块;
对所述多个块的每个实例进行语音到文本转换;
将所述多个块的每个实例的文本返回到所述平台模块;
在所述平台模块合并所述多个块的每个实例的文本,以产生音频文件转录;
将所述音频文件和所述多个块发送到所述分割聚类模块;
对所述多个块执行第一次分割聚类,以产生多个分割聚类块;
对所述多个分割聚类块和所述音频文件执行第二次分割聚类,以产生经分割聚类的音频文件;
合并所述音频文件转录和所述经分割聚类的音频文件,以产生最终转录。
12.根据权利要求11所述的系统,其特征在于,所述语音服务模块和语音服务模块被配置成将所述音频文件转码成已知的代码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于雷夫.康姆有限公司,未经雷夫.康姆有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980070755.X/1.html,转载请声明来源钻瓜专利网。