[发明专利]语言模型的训练方法、语音识别方法及相关装置在审

专利信息
申请号: 202110678753.8 申请日: 2021-06-18
公开(公告)号: CN113380225A 公开(公告)日: 2021-09-10
发明(设计)人: 吴振宗;徐易楠;康世胤;许佳 申请(专利权)人: 广州虎牙科技有限公司
主分类号: G10L15/00 分类号: G10L15/00;G10L15/06;G10L15/183;G10L15/26
代理公司: 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 代理人: 张欣欣
地址: 511495 广东省广州市番禺*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 语言 模型 训练 方法 语音 识别 相关 装置
【权利要求书】:

1.一种语言模型的训练方法,其特征在于,所述方法包括:

获得口语训练语料集和业务训练语料集;其中,所述口语训练语料集是在任意场景下采集的文本集;所述业务训练语料集是在直播场景下采集的主播用户对应的文本集;

根据所述口语训练语料集,对初始的语言模型进行预训练,获得预训练的所述语言模型;

根据所述业务训练语料集,对所述预训练的所述语言模型进行微调训练,获得训练后的所述语言模型。

2.根据权利要求1所述的语言模型的训练方法,其特征在于,在获得口语训练语料集和业务训练语料集的步骤之后,所述方法还包括:

获得所述口语训练语料集中的第一待处理文本和所述业务训练语料集中的第二待处理文本;其中,所述第一待处理文本和所述第二待处理文本各自的文本长度大于预设长度;

根据预设截断概率和预设截断长度,分别对所述第一待处理文本和所述第二待处理文本进行截断;

将截断后的所述第一待处理文本作为所述口语训练语料集中的训练语料,将截断后的所述第二待处理文本作为所述业务训练语料集中的训练语料。

3.根据权利要求1所述的语言模型的训练方法,其特征在于,获得口语训练语料集和业务训练语料集之后,所述方法还包括:

对所述口语训练语料集和所述业务训练语料集中的每个文本进行语料清洗。

4.一种语音识别方法,其特征在于,所述方法包括:

获得待识别语音;

基于预训练的语音识别模型和语言模型,获得所述待识别语音对应的目标文本;

其中,所述语言模型是基于口语训练语料集和业务训练语料集训练而成;所述口语训练语料集是在任意场景下采集的文本集;所述训练语料集是在直播场景下采集的主播用户对应的文本集。

5.根据权利要求4所述的语音识别方法,其特征在于,所述语言模型通过以下方式训练:

根据所述口语训练语料集,对初始的所述语言模型进行预训练,获得预训练的所述语言模型;

根据所述业务训练语料集,对所述预训练的所述语言模型进行微调训练,获得训练后的所述语言模型。

6.根据权利要求4所述的语音识别方法,其特征在于,基于预训练的语音识别模型和语言模型,获得所述待识别语音对应的目标文本,包括:

获得所述待识别语音对应的音频特征;

基于所述语音识别模型,获得所述音频特征对应的文字序列以及所述文字序列中每个词语对应的第一分布概率;

基于所述语言模型,获得所述每个词语对应的第二分布概率;

将所述第一分布概率和所述第二分布概率之和最大时对应的词语组成所述目标文本。

7.根据权利要求4所述的语音识别方法,其特征在于,获得待识别语音,包括:

显示语音识别的用户界面;所述用户界面上具有语音录入区域、开始识别标识和文本预览区域;

当在所述语音录入区域接收到录入指令,获得所述待识别语音;

基于预训练的语音识别模型和语言模型,获得所述待识别语音对应的目标文本的步骤,包括:

当接收到针对所述语音开始识别标识的操作指令,基于所述语音识别模型和所述语言模型,获得所述目标文本,并将所述目标文本显示在所述文本预览区域。

8.一种语言模型的训练装置,其特征在于,包括:

获得模块,用于获得口语训练语料集和业务训练语料集;其中,所述口语训练语料集是在任意场景下采集的文本集;所述业务训练语料集是在直播场景下采集的主播用户对应的文本集;

训练模块,用于根据所述口语训练语料集,对初始的语言模型进行预训练,获得预训练的所述语言模型;根据所述业务训练语料集,对所述预训练的所述语言模型进行微调训练,获得训练后的所述语言模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州虎牙科技有限公司,未经广州虎牙科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110678753.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top