[发明专利]一种语音处理方法、装置、终端及存储介质在审
申请号: | 202010849414.7 | 申请日: | 2020-08-21 |
公开(公告)号: | CN111951790A | 公开(公告)日: | 2020-11-17 |
发明(设计)人: | 田植良 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/22;G06N3/04 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 夏欢 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 处理 方法 装置 终端 存储 介质 | ||
1.一种语音处理方法,其特征在于,包括:
获得待识别的目标语音数据;
获得所述目标语音数据所属的目标用户;
利用所述目标用户对应的语音识别模型,对所述目标语音数据进行语音识别,以得到所述目标语音数据对应的目标文本数据;
其中,所述语音识别模型为利用所述目标用户的多个具有文本标签的第一语音样本对通用识别模型进行训练得到,所述通用识别模型为利用多个具有文本标签的第二语音样本对初始构建的通用识别模型进行训练得到。
2.根据权利要求1所述的方法,其特征在于,获得所述目标语音数据所属的目标用户,包括:
获得第一语音集合中预设的每个第一语音数据,每个所述第一语音数据分别对应于一个所属用户;
利用用户分类模型,对所述目标语音数据和所述第一语音数据进行语音处理,以得到所述目标语音数据所属的目标用户,所述目标用户对应的第一语音数据与所述目标语音数据满足预设的相似条件;
其中,所述用户分类模型为利用多个具有用户分类标签的语音样本组对初始构建的用户分类模型进行训练得到,所述语音样本组包含两个第三语音样本,所述用户分类标签表征所述语音样本组中的两个所述第三语音样本是否属于同一用户。
3.根据权利要求2所述的方法,其特征在于,所述目标用户对应的第一语音数据与所述目标语音数据满足预设的相似条件,包括:
所述目标用户对应的第一语音数据与所述目标语音数据之间的相似度大于或等于预设的相似阈值;
和/或,
所述目标用户对应的第一语音数据与所述目标语音数据之间的相似度最大。
4.根据权利要求2所述的方法,其特征在于,所述用户分类模型中至少包含卷积神经网络层、全联通层和分类层;
其中,所述卷积神经网络层用于对所述目标语音数据和所述第一语音数据分别进行语音特征提取,以得到所述目标语音数据对应的第一语音特征和所述第一语音数据对应的第二语音特征;
所述全联通层用于对所述第一语音特征和所述第二语音特征进行特征交互处理,以得到特征交互结果;
所述分类层用于根据所述特征交互结果,生成分类结果,所述分类结果表征所述目标语音数据和所述第一语音数据是否属于同一用户。
5.根据权利要求2所述的方法,其特征在于,获得第一语音集合中的每个第一语音数据,包括:
获得终端上存储的第一语音集合,所述终端为需要对所述目标语音数据进行语音识别的设备;
获得所述第一语音集合中预设的每个第一语音数据。
6.根据权利要求2所述的方法,其特征在于,在所述第一语音集合中的每个所述第一语音数据与所述目标语音数据均不满足所述相似条件的情况下,所述方法还包括:
获得服务器上存储的第二语音集合中的每个第二语音数据,每个所述第二语音数据分别对应于一个所属用户,所述服务器为能够与终端进行数据传输的设备,所述终端为需要对所述目标语音数据进行语音识别的设备;
利用所述用户分类模型,对所述目标语音数据和所述第二语音数据进行语音处理,以得到所述目标语音数据所属的目标用户,所述目标用户对应的第二语音数据与所述目标语音数据满足所述相似条件。
7.根据权利要求1所述的方法,其特征在于,获得所述目标语音数据所属的目标用户,包括:
利用用户识别模型,对所述目标语音数据进行语音识别,以得到所述目标语音数据所属的目标用户;
其中,所述用户识别模型为利用多个具有用户标签的第四语音样本对初始构建的用户识别模型进行训练得到。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010849414.7/1.html,转载请声明来源钻瓜专利网。