[发明专利]有害语音的识别方法、装置、计算机设备和存储介质在审
| 申请号: | 202110579536.3 | 申请日: | 2021-05-26 |
| 公开(公告)号: | CN113327601A | 公开(公告)日: | 2021-08-31 |
| 发明(设计)人: | 谭泽龙;郭敏;张卫强 | 申请(专利权)人: | 清华大学 |
| 主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/10;G10L25/12;G10L25/51 |
| 代理公司: | 北京华进京联知识产权代理有限公司 11606 | 代理人: | 吴迪 |
| 地址: | 10008*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 有害 语音 识别 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种有害语音的识别方法、装置、计算机设备和存储介质。方法包括:将每一样本语音的置信度与预设阈值组进行比较,确定每一样本语音对应的判断结果,根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,计算预设阈值组对应的代价函数值;对预设阈值组中的预设阈值进行调整,重复上述调整预设阈值及计算代价函数值的过程,确定满足预设条件的代价函数值;根据满足该预设条件的代价函数值所对应的预设阈值组,确定最终的预设阈值组;根据待判别的语音及所述最终的预设阈值组,对所有待判别的语音进行判断。相较于使用单阈值方式对有害语音进行识别,采用双阈值方式更便于对置信度阈值进行调整,进而提高有害语音识别的分类效果。
技术领域
本申请涉及语音识别的技术领域,特别是涉及一种有害语音的识别方法、装置、计算机设备和存储介质。
背景技术
随着智能化的发展,语音识别功能在智能化设备中发挥着越来越重要的作用。在语音识别功能使用过程中,若一个语音被判定为有害语音,可以对其进行拦截;若判定为正常语音,则让用户正常接收。这意味着如果将有害语音判定为正常语音,可能会给用户带来骚扰;如果将正常语音判定为有害语音,进而被过滤掉,就会造成很大的损失和不便。在对语音鉴别时,有害语音分类的分类结果常常有着重要的意义,目前主要是通过分类模型来进行识别。传统的分类模型是将语音分为正常和有害两种,采用分类模型对语音样本进行预测,计算出语音为有害语音的置信程度,即置信度,置信度通常是在0~1范围内的一个值。然后,再将该置信度与预设阈值进行比较,从而根据比较结果,判断该待识别的语音是否为有害语音。
在相关技术中,上述预设阈值通常是根据经验选择的,且预设阈值是单一的判别门限。实际实施过程中,分类模型输出的置信度可能很接近预设阈值,也可能离预设阈值很远。但无论是接近还是远离,其实识别结果都是一致的。例如,以预设阈值为0.5,置信度小于该预设阈值时被判断为正常语音,置信度不小于该预设阈值时被判断为有害语音为例。其中,置信度为0.49及0.1时都会被判断为正常。由于置信度为0.49时就比较接近预设阈值,其存在明明是有害语音却被判断未正常的可能,从而导致判断结果不够准确。即使对作为单一判别门限的预设阈值进行了调整,如提高置信度阈值,则会使得部分有害语音无法被有效识别。而降低阈值,会使得许多正常语音被鉴别为有害语音,使得分类的结果不够准确。
发明内容
基于此,有必要针对上述技术问题,提供一种能够灵活有效地识别有害语音的方法、装置、计算机设备和存储介质。
一种有害语音的识别方法,该方法包括:
将每一样本语音的置信度与预设阈值组进行比较,确定每一样本语音对应的判断结果,根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,计算预设阈值组对应的代价函数值,标注结果为有害语音或正常语音;
对预设阈值组中的预设阈值进行调整,重复上述调整预设阈值及计算代价函数值的过程,确定满足预设条件的代价函数值,该预设条件的设定依据为识别样本语音时能够达到预设的准确率;
根据满足该预设条件的代价函数值所对应的预设阈值组,确定最终的预设阈值组;
根据待判别的语音及所述最终的预设阈值组,对所有待判别的语音进行判断;
其中,预设阈值组包括第一预设阈值与第二预设阈值,第一预设阈值用于判断正常语音,第二预设阈值用于判断有害语音。
在其中一个实施例中,根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,计算预设阈值组对应的代价函数值,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110579536.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能新冠疫情调查机器人
- 下一篇:基于语音采集的通讯方法、装置及系统





