[发明专利]有害语音的识别方法、装置、计算机设备和存储介质在审
申请号: | 202110579536.3 | 申请日: | 2021-05-26 |
公开(公告)号: | CN113327601A | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 谭泽龙;郭敏;张卫强 | 申请(专利权)人: | 清华大学 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/10;G10L25/12;G10L25/51 |
代理公司: | 北京华进京联知识产权代理有限公司 11606 | 代理人: | 吴迪 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 有害 语音 识别 方法 装置 计算机 设备 存储 介质 | ||
1.一种有害语音的识别方法,其特征在于,所述方法包括:
将每一样本语音的置信度与预设阈值组进行比较,确定每一样本语音对应的判断结果,根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,计算所述预设阈值组对应的代价函数值,标注结果为有害语音或正常语音;
对所述预设阈值组中的预设阈值进行调整,重复上述调整预设阈值及计算代价函数值的过程,确定满足预设条件的代价函数值,所述预设条件的设定依据为识别样本语音时能够达到预设的准确率;
根据满足所述预设条件的代价函数值所对应的预设阈值组,确定最终的预设阈值组;
根据待判别的语音及所述最终的预设阈值组,对所述待判别的语音进行判断;
其中,所述预设阈值组包括第一预设阈值与第二预设阈值,所述第一预设阈值用于判断正常语音,所述第二预设阈值用于判断有害语音。
2.根据权利要求1所述的方法,其特征在于,所述根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,计算所述预设阈值组对应的代价函数值,包括:
对于第一预设等级集合中的每一第一预设等级及第二预设集合中的每一第二预设等级,根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,确定所有样本语音中每一第一预设等级的正常语音被识别为有害语音的第一数量,以构成第一数量集合,并根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,确定所有样本语音中每一第二预设等级的有害语音被识别为正常语音的第二数量,以构成第二数量集合;
根据所述第一数量集合、第一代价系数集合、所述第二数量集合及第二代价系数集合,确定所述预设阈值组对应的代价函数值;
其中,所述第一预设等级集合及所述第二预设等级集合中均至少包括一种预设等级,所述第一预设等级集合中的预设等级是按照正常语音的重要程度所划分的,所述第二预设等级集合中的预设等级是按照有害语音的有害程度所划分的,所述第一代价系数集合中每一第一代价系数是与每一第一预设等级相对应的,所述第二代价系数集合中每一第二代价系数是与每一第二预设等级相对应的。
3.根据权利要求2所述的方法,其特征在于,所述第一预设等级集合中包括以下两个第一预设子等级中的至少一项,所述以下两个第一预设子等级分别为普通等级及重要等级。
4.根据权利要求2所述的方法,其特征在于,置信度不大于第一预设阈值时语音被判断为正常语音,置信度大于第二预设阈值时语音被判断为有害语音,置信度不大于第一预设阈值且不小于第二预设阈值时语音被判断为不确定语音;相应地,所述根据所述第一数量集合、第一代价系数集合、所述第二数量集合及第二代价系数集合,确定所述预设阈值组对应的代价函数值,包括:
获取所有语音样本中识别为不确定语音的第三数量及不确定语音对应的第三代价系数;
根据所述第三数量、所述第三代价系数、所述第一数量集合、所述第一代价系数集合、所述第二数量集合及所述第二代价系数集合,确定所述预设阈值组对应的代价函数值。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第三数量、所述第三代价系数、所述第一数量集合、所述第一代价系数集合、所述第二数量集合及所述第二代价系数集合,确定所述预设阈值组对应的代价函数值,包括:
将所述第一数量集合中每一第一数量与对应在所述第一代价系数集合中的第一代价系数相乘,得到每一第一数量对应的每一第一乘积;
将所述第二数量集合中每一第二数量与对应在所述第二代价系数集合中的第二代价系数相乘,得到每一第二数量对应的每一第二乘积;
将所述第三代价系数与所述第三数量相乘,得到第三乘积;
将所述第三乘积、每一第一乘积及每一第二乘积进行相加,将相加结果作为所述预设阈值组对应的代价函数值。
6.根据权利要求1所述的方法,其特征在于,所述预设条件包括计算得到的代价函数值收敛或者代价函数值为所有计算得到的代价函数值中的最小值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110579536.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能新冠疫情调查机器人
- 下一篇:基于语音采集的通讯方法、装置及系统