[发明专利]语音处理方法、装置、设备和存储介质有效
申请号: | 201810090898.4 | 申请日: | 2018-01-30 |
公开(公告)号: | CN110097870B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 姚海涛 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/14;G10L15/22;G10L15/26 |
代理公司: | 北京君以信知识产权代理有限公司 11789 | 代理人: | 谭镇 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 处理 方法 装置 设备 存储 介质 | ||
本申请实施例提供了一种语音处理方法、装置、设备和存储介质,以减少出现误唤醒的问题。所述的方法包括:对语音数据进行分析,得到一个或多个识别关键词以及对应的置信度信息;采用多个置信度分类器,对所述一个或多个识别关键词进行多级的置信度验证;输出通过多级验证的最终关键词。通过多级的置信度验证,能够有效提高关键词识别的准确性,减少误唤醒的问题。
技术领域
本申请涉及计算机技术领域,特别是涉及一种语音处理方法及装置、一种电子设备和一种存储介质。
背景技术
随着终端技术的发展,语音唤醒技术广泛也得到可广泛的应用,即用户可以在终端中通过语音唤醒所需的应用等服务,例如通过语音查询路线、通过语音唤醒各种应用等。
目前语音唤醒通常是采用受限规模的深度神经网络(Deep Neural Network,DNN)模型,来构建一个小型的自动语音识别(Automatic Speech Recognition,ASR)系统,通过该ASR系统进行关键词的识别,并且;同时部分系统针对定制关键词训练一个置信度分类器来进行优化。
本方案类似于基于DNN声学模型(AM)的语音唤醒技术,以及AM-CC两级分类的语音唤醒技术。一个受限规模的DNN声学模型,构建一个小型的ASR系统进行关键词的识别,并且可采用针对定制关键词训练的置信度分类器来进行优化。
上述这种方式具有较好的召回率,但是,有一些关键词在发音上非常接近,例如“你好淘宝”和“你好大宝”,很容易出现误识别,从而导致出现误唤醒的问题。
发明内容
本申请实施例所要解决的技术问题是提供一种语音处理方法,以减少出现误唤醒的问题。
相应的,本申请实施例还提供了一种语音处理装置、一种电子设备和一种存储介质,用以保证上述方法的实现及应用。
为了解决上述问题,本申请公开了一种语音处理方法,包括:对语音数据进行分析,得到一个或多个识别关键词以及对应的置信度信息;采用多个置信度分类器,对所述一个或多个识别关键词进行多级的置信度验证;输出通过多级验证的最终关键词。
可选的,所述对语音数据进行分析,得到一个或多个识别关键词以及对应的置信度信息,包括:提取语音数据的语音特征;对所述语音特征进行分析,得到一个或多个识别关键词以及对应的置信度信息。
可选的,所述提取语音数据的语音特征,包括:按照设定方式对所述语音数据进行特征提取,将提取的倒谱特征作为语音特征。
可选的,所述对所述语音特征进行分析,得到一个或多个识别关键词以及对应的置信度信息,包括:按照声学数据集合对所述语音特征进行识别,确定对应的声学信息;采用网络数据集合对所述声学信息进行处理,得到一个或多个识别关键词以及对应的置信度信息。
可选的,所述采用多个置信度分类器,对所述一个或多个识别关键词进行多级的置信度验证,包括:采用串行的置信度分类器和所述置信度信息,依次对所述识别关键词进行各级置信度的验证;和/或采用并行的置信度分类器和所述置信度信息,并行对所述识别关键词进行各级置信度的验证。
可选的,所述采用各串行的置信度分类器和所述置信度信息,依次对所述识别关键词进行各级置信度的验证,包括:将识别关键词对应置信度信息按照级别依次采用所述串行的置信度分类器进行分析,确定所述识别关键词的置信度验证结果。
可选的,所述串行的置信度分类器执行以下至少一种级别的置信度分析:关键词级别的置信度分析、单字级别的置信度分析、句子级别的置信度分析、语音级别的置信度分析。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810090898.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:图像传感器和包括其的电子设备
- 下一篇:一种复合衬底及复合衬底的制作方法