[发明专利]音频脱敏的方法、装置、电子设备以及可读存储介质有效
申请号: | 202110039707.3 | 申请日: | 2021-01-13 |
公开(公告)号: | CN112885371B | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | 张晴晴;曹艳丽;贾艳明;张雪璐 | 申请(专利权)人: | 北京爱数智慧科技有限公司 |
主分类号: | G10L25/03 | 分类号: | G10L25/03;G10L25/48;G10L15/18 |
代理公司: | 北京智沃律师事务所 11620 | 代理人: | 吴志宏 |
地址: | 100088 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 方法 装置 电子设备 以及 可读 存储 介质 | ||
1.一种音频脱敏的方法,其特征在于,包括:
获取用户的第一音频数据,所述第一音频数据包括全部音素的发音片段;
对所述第一音频数据进行声学特征提取,并获取所述第一音频中所述全部音素的发音片段;
将所述用户的标识和与所述用户对应的所述全部音素的发音片段记录到音源库中;
以与所述用户对应的所述全部音素的发音片段作为声音来源,以敏感内容词库作为内容来源,利用语音合成技术对所述发音片段进行合成,以得到敏感词汇对应的合成音频;
对所述合成音频进行声学特征提取,并根据所述合成音频的声学特征建立与所述用户对应的敏感音频特征模型;
获取所述用户的第二音频数据;
通过所述敏感音频特征模型对所述第二音频数据的声学特征进行相似度匹配;
在相似度大于预设值的情况下,对所述第二音频数据进行内容识别,以得到与所述第二音频数据对应的内容识别文本;
以所述敏感内容词库作为匹配数据库,判断所述内容识别文本中是否含有所述敏感词汇;
在所述内容识别文本中存在所述敏感词汇的情况下,对所述敏感词汇对应的语音片段进行替换;
所述对所述敏感词汇对应的语音片段进行替换,具体包括:
对所述内容识别文本中存在的所述敏感词汇进行分类;
根据分类结果,将所述敏感词汇替换为同类型的脱敏词汇;
利用所述用户对应的所述全部音素的发音片段合成所述脱敏词汇对应的语音片段;
将所述脱敏词汇对应的语音片段的时长调整为所述敏感词汇对应的语音片段的时长;
将所述敏感词汇对应的语音片段替换为所述脱敏词汇对应的语音片段,以得到脱敏后的第三音频数据。
2.根据权利要求1所述的方法,其特征在于,所述对所述敏感词汇对应的语音片段进行替换,具体为:
将所述敏感词汇对应的语音片段替换为同等时长的空白音频。
3.根据权利要求1所述的方法,其特征在于,在所述将所述敏感词汇对应的语音片段替换为所述脱敏词汇对应的语音片段,以得到脱敏后的第三音频数据之后,还包括:
对所述第三音频数据进行平滑处理,并加入少量随机噪声。
4.根据权利要求1所述的方法,其特征在于,还包括:
根据网络爬虫数据,实时更新所述敏感内容词库中的所述敏感词汇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京爱数智慧科技有限公司,未经北京爱数智慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110039707.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种皮带传输系统中末端弹射装置
- 下一篇:一种园林用铲叉快速切换功能铲