[发明专利]二次分割聚类、自动语音识别和转录生成的系统及方法在审

申请号：	201980070755.X	申请日：	2019-10-30
公开（公告）号：	CN113348504A	公开（公告）日：	2021-09-03
发明（设计）人：	J-P·罗比肖;A·斯库里欣;M·热泰;P·E·斯坦尼斯拉夫维奇	申请（专利权）人：	雷夫.康姆有限公司
主分类号：	G10L15/26	分类号：	G10L15/26;G01L21/00
代理公司：	永新专利商标代理有限公司 72002	代理人：	蔡洪贵
地址：	美国加***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	二次分割自动语音识别转录生成系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

在一个实施例中，一种转录生成方法，包括接收音频文件以及将其划分为多个块。该方法还包括将多个块的每个实例发送到语音服务模块。该方法还包括对多个块的每个实例进行语音到文本转换以及使多个块的每个实例的文本返回到平台模块。该方法还包括在平台模块合并多个块的每个实例的文本，以产生音频文件转录，以及将音频文件和多个块发送到分割聚类模块。该方法还包括对多个块执行第一次分割聚类，以产生多个分割聚类块，以及对多个分割聚类块和音频文件执行第二次分割聚类，以产生经分割聚类的音频文件。该方法还包括合并音频文件转录和经分割聚类的音频文件，以产生最终转录。

背景技术

语音识别并生成转录(transcript)或可隐藏字幕是一项期望通过计算系统来部分或全部完成的任务。为了完成该任务，必须对说话人进行识别和划分。这被称为分割聚类(diarization)。这种执行分割聚类的过程的强度与所需的时间和处理能力有关。声音信号与说话人的数量、表达的繁简以及信号的长度有关，声音信号越复杂、越长，该过程越耗时。在许多场景中，用户期望更快速地处理和生成转录。

发明内容

在一个实施例中，一种包括ASR和分割聚类的转录生成方法，所述方法包括在平台模块接收音频文件以及将所述音频文件划分为多个块。所述方法还包括将所述多个块的每个实例(instance)发送到语音服务模块。所述方法还包括对所述多个块的每个实例进行语音到文本转换。所述方法还包括将所述多个块的每个实例的文本返回到所述平台模块。所述方法还包括在所述平台模块合并(merging)所述多个块的每个实例的文本，以产生音频文件转录。所述方法还包括将所述音频文件和所述多个块发送到分割聚类模块。所述方法还包括对所述多个块执行第一次分割聚类，以产生多个分割聚类块(chunk)。所述方法还包括对所述多个分割聚类块和所述音频文件执行第二次分割聚类，以产生经分割聚类的音频文件。所述方法还包括合并所述音频文件转录和所述经分割聚类的音频文件，以产生最终转录。在一个可选方案中，所述第一次分割聚类与所述语音到文本转换同时进行。在一个可选方案中，所述方法还包括将所述音频文件转码成已知的代码。在另一个可选方案中，所述方法还包括将所述音频文件转录发送到后处理模块以及将标点符号和大小写(casing)应用到所述音频文件转录。可选择地，所述多个分割聚类块包括多个段，每个段具有说话人识别信息。在另一个可选方案中，所述说话人识别信息是I-vector。可选择地，在所述多个分割聚类块中的每个中，将所述多个段中包括统计学相似的说话人识别信息的段聚簇为属于多个说话人中的相应说话人。在另一个可选方案中，所述第二次分割聚类包括给所述多个分割聚类块中的每个的多个说话人中的每个赋予唯一识别符。在另一个可选方案中，所述第二次分割聚类包括，针对所述多个段中与每个唯一识别符关联的关联段，对所述关联段的说话人识别信息求均值，以产生均值说话人识别信息。可选择地，所述第二次分割聚类包括，根据所述多个段中与每个唯一识别符关联的关联段的均值说话人识别信息之间的相关性，将所述多个块中的所有块的多个段中的经识别段分配到最终说话人。在另一个可选方案中，所述方法还包括以固定且有形的格式输出所述最终转录。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于雷夫.康姆有限公司，未经雷夫.康姆有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201980070755.X/2.html，转载请声明来源钻瓜专利网。

上一篇：通过个人访问模块的访问授权
下一篇：用于去除多种液相化合物的金属-有机骨架及其使用和制造方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]二次分割聚类、自动语音识别和转录生成的系统及方法在审

专利文献下载