[发明专利]二次分割聚类、自动语音识别和转录生成的系统及方法在审
申请号: | 201980070755.X | 申请日: | 2019-10-30 |
公开(公告)号: | CN113348504A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | J-P·罗比肖;A·斯库里欣;M·热泰;P·E·斯坦尼斯拉夫维奇 | 申请(专利权)人: | 雷夫.康姆有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G01L21/00 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 蔡洪贵 |
地址: | 美国加*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 二次 分割 自动 语音 识别 转录 生成 系统 方法 | ||
在一个实施例中,一种转录生成方法,包括接收音频文件以及将其划分为多个块。该方法还包括将多个块的每个实例发送到语音服务模块。该方法还包括对多个块的每个实例进行语音到文本转换以及使多个块的每个实例的文本返回到平台模块。该方法还包括在平台模块合并多个块的每个实例的文本,以产生音频文件转录,以及将音频文件和多个块发送到分割聚类模块。该方法还包括对多个块执行第一次分割聚类,以产生多个分割聚类块,以及对多个分割聚类块和音频文件执行第二次分割聚类,以产生经分割聚类的音频文件。该方法还包括合并音频文件转录和经分割聚类的音频文件,以产生最终转录。
背景技术
语音识别并生成转录(transcript)或可隐藏字幕是一项期望通过计算系统来部分或全部完成的任务。为了完成该任务,必须对说话人进行识别和划分。这被称为分割聚类(diarization)。这种执行分割聚类的过程的强度与所需的时间和处理能力有关。声音信号与说话人的数量、表达的繁简以及信号的长度有关,声音信号越复杂、越长,该过程越耗时。在许多场景中,用户期望更快速地处理和生成转录。
发明内容
在一个实施例中,一种包括ASR和分割聚类的转录生成方法,所述方法包括在平台模块接收音频文件以及将所述音频文件划分为多个块。所述方法还包括将所述多个块的每个实例(instance)发送到语音服务模块。所述方法还包括对所述多个块的每个实例进行语音到文本转换。所述方法还包括将所述多个块的每个实例的文本返回到所述平台模块。所述方法还包括在所述平台模块合并(merging)所述多个块的每个实例的文本,以产生音频文件转录。所述方法还包括将所述音频文件和所述多个块发送到分割聚类模块。所述方法还包括对所述多个块执行第一次分割聚类,以产生多个分割聚类块(chunk)。所述方法还包括对所述多个分割聚类块和所述音频文件执行第二次分割聚类,以产生经分割聚类的音频文件。所述方法还包括合并所述音频文件转录和所述经分割聚类的音频文件,以产生最终转录。在一个可选方案中,所述第一次分割聚类与所述语音到文本转换同时进行。在一个可选方案中,所述方法还包括将所述音频文件转码成已知的代码。在另一个可选方案中,所述方法还包括将所述音频文件转录发送到后处理模块以及将标点符号和大小写(casing)应用到所述音频文件转录。可选择地,所述多个分割聚类块包括多个段,每个段具有说话人识别信息。在另一个可选方案中,所述说话人识别信息是I-vector。可选择地,在所述多个分割聚类块中的每个中,将所述多个段中包括统计学相似的说话人识别信息的段聚簇为属于多个说话人中的相应说话人。在另一个可选方案中,所述第二次分割聚类包括给所述多个分割聚类块中的每个的多个说话人中的每个赋予唯一识别符。在另一个可选方案中,所述第二次分割聚类包括,针对所述多个段中与每个唯一识别符关联的关联段,对所述关联段的说话人识别信息求均值,以产生均值说话人识别信息。可选择地,所述第二次分割聚类包括,根据所述多个段中与每个唯一识别符关联的关联段的均值说话人识别信息之间的相关性,将所述多个块中的所有块的多个段中的经识别段分配到最终说话人。在另一个可选方案中,所述方法还包括以固定且有形的格式输出所述最终转录。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于雷夫.康姆有限公司,未经雷夫.康姆有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980070755.X/2.html,转载请声明来源钻瓜专利网。