[发明专利]一种文本顺滑的语音识别方法、系统及存储介质在审
| 申请号: | 202210262971.8 | 申请日: | 2022-03-17 |
| 公开(公告)号: | CN114708868A | 公开(公告)日: | 2022-07-05 |
| 发明(设计)人: | 陈玮;冯少辉;张建业 | 申请(专利权)人: | 北京中科智加科技有限公司 |
| 主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/06;G10L15/16;G10L15/18 |
| 代理公司: | 北京天达知识产权代理事务所(普通合伙) 11386 | 代理人: | 庞许倩 |
| 地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 语音 识别 方法 系统 存储 介质 | ||
本发明涉及一种文本顺滑的语音识别方法、系统及存储介质,属于语音识别技术领域;解决了语音识别后输出的口语转写文本阅读性不强和忠诚度不高的问题;本发明的文本顺滑的语音识别方法包括:获取待识别语音;将待识别语音转换为待顺滑文本;将转换得到的待顺滑文本利用文本顺滑模型得到识别后的顺滑文本;其中,文本顺滑模型用于输出当前不顺滑文本的不顺滑有序标签以及当前不顺滑文本对应的顺滑文本;不顺滑有序标签通过不顺滑标签预测任务采用CRF方法预测得到;顺滑文本通过顺滑文本生成任务采用集束搜索方法搜索得到;本发明的语音识别方法解决了现有语音识别技术中识别结果不够准确,可读性不强,难以满足复杂场景的需求的问题。
技术领域
本发明涉及语音识别技术领域,特别涉及一种文本顺滑的语音识别方法、系统及存储介质。
背景技术
语音识别作为人机交互的一个重要入口,现已被广泛应用于各类场景,例如语音输入、语音搜索、语音翻译、智能家居等等。其中某些场景对在线识别的实时性有着较高的要求,如语音控制,会议纪要等
自动语音识别得到的文本中往往含有大量不流畅的现象,这些不流畅现象会对后面的自然语言理解系统造成严重干扰。文本顺滑任务作为语音识别系统和自然语言理解系统之间的一个任务,是对语音识别后的文本不顺滑现象进行检测。经过顺滑后的文本不仅能有效提高语音识别后文本的可阅读性,且能减少对后续自然语言处理任务的干扰。
现有的语音识别方法没有考虑到序列生成算法解码时的不可控性,顺滑后的文本忠诚度和流畅度不够,另外生成系列到系列模型通常有重复片段的系列生成,使得顺滑后的句子或多或少的改变着口语文本原有的含义,使得语音识别结果不够准确,或可读性不强,难以满足复杂场景的需求。
发明内容
鉴于上述的分析,本发明旨在提供一种文本顺滑的语音识别方法、系统及存储介质;解决现有技术中语音识别方法无法满足复杂场景的需求,且生成的口语转写文本忠诚度和流畅度不高的问题。
本发明的目的主要是通过以下技术方案实现的:
一方面,本发明提供了一种文本顺滑的语音识别方法,包括以下步骤:
获取待识别语音;
将待识别语音转换为待顺滑文本;
将转换得到的待顺滑文本利用文本顺滑模型得到识别后的顺滑文本;其中,文本顺滑模型用于输出当前不顺滑文本的不顺滑有序标签以及当前不顺滑文本对应的顺滑文本;不顺滑有序标签通过不顺滑标签预测任务采用CRF方法预测得到;顺滑文本通过顺滑文本生成任务采用集束搜索方法搜索得到。
进一步的,将待识别语音转换为待顺滑文本,包括,使用基于wav2vec2.0模型的参数微调方法进行语音识别,wav2vec2.0模型包括特征提取层、上下文编码层和输出层三部分;特征提取层使用多层卷积网络实现语音帧级别的特征提取;上下文编码层用于提取帧间的关联特征,输出层使用预训练的语言模型输出语音识别后的待顺滑文本;
进一步的,文本顺滑模型使用T5-base的预训练模型作为初始模型进行模型训练得到,包括输入层、编码器-解码器层和输出层;
编码器使用T5原生的基于自注意力机制的编码模型;根据输入的不顺滑文本得到具有不流畅文本上下文表示的隐向量;
解码器用于根据编码器隐向量,通过注意力计算,得到目标文本单词概率分布;
输出层包括所述不顺滑标签预测和所述顺滑文本生成任务;用于输出不顺滑标签序列和顺滑文本。
进一步的,所述模型训练包括:
通过构造包含伪标签的不顺滑语料对和构造不包含标签的扩充语料对样本进行扩充,得到扩充后的训练样本集合;
利用训练样本集合对初始模型进行训练,并使用损失函数进行梯度更新,得到文本顺滑模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科智加科技有限公司,未经北京中科智加科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210262971.8/2.html,转载请声明来源钻瓜专利网。





