[发明专利]敏感词分数检测方法、装置、电子设备及存储介质有效
| 申请号: | 201911329327.2 | 申请日: | 2019-12-20 |
| 公开(公告)号: | CN111105788B | 公开(公告)日: | 2023-03-24 |
| 发明(设计)人: | 李世杰;陈欢 | 申请(专利权)人: | 北京三快在线科技有限公司 |
| 主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/26;G06F16/635;G06F16/735;G06F16/783 |
| 代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 谢冬寒 |
| 地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 敏感 分数 检测 方法 装置 电子设备 存储 介质 | ||
本公开涉及一种敏感词分数检测方法、装置、电子设备及存储介质,涉及语音识别技术领域。包括:对待检测的音频信号进行特征提取,得到该音频信号的第一声学特征,通过敏感词识别模型中的特征处理层,对第一声学特征进行解析处理,得到至少一个词语声学特征,确定每个词语声学特征的敏感词分数,从而识别出敏感词,完成敏感词分数检测。通过对待检测的音频信号的进行特征提取,根据词语特征的敏感词分数确定该音频信号中的敏感词,完成敏感词检测,避免了将音频信号转换成文本数据,简化了敏感词检测的步骤,并且,通过敏感词识别模型得到至少一个词语声学特征,提高了提取词语声学特征的准确性,进而提高了敏感词检测的准确性。
技术领域
本公开涉及语音识别技术领域,特别涉及一种敏感词分数检测方法、装置、电子设备及存储介质。
背景技术
为了建立安全的网络环境,常需要对用户通过网络平台上传的视频或音频进行审核;或者,为了了解服务的质量,常将服务过程进行录音,对录制的音频进行监督。该审核或监督过程可以通过敏感词检测技术实现。通过敏感词检测技术,可以检测视频或音频中的音频信号中是否包含敏感词,从而筛选出包含敏感词的音频信号。
发明内容
本公开实施例提供了一种敏感词分数检测方法、装置、电子设备及存储介质,能够解决对音频信号中的敏感词进行检测时,需要将音频信号转换成文本数据,再对文本数据进行敏感词检测,导致的敏感词检测的过程繁琐的问题。该技术方案如下:
一方面,提供了一种敏感词分数检测方法,所述方法包括:
获取待检测的音频信号;
通过敏感词识别模型中的特征处理层,对所述第一声学特征进行解析处理,得到所述至少一个词语声学特征;
对所述第一声学特征进行解析处理,得到所述第一声学特征包含的至少一个词语声学特征;
确定所述至少一个词语声学特征的敏感词分数,所述词语声学特征的敏感词分数指示所述词语声学特征对应的词语属于敏感词的概率值。
另一方面,提供了一种敏感词分数检测装置,所述装置包括:
第一获取模块,用于获取待检测的音频信号;
特征提取模块,用于通过敏感词识别模型中的特征处理层,对所述第一声学特征进行解析处理,得到所述至少一个词语声学特征;
特征解析模块,用于对所述第一声学特征进行解析处理,得到所述第一声学特征包含的至少一个词语声学特征;
第一确定模块,用于确定所述至少一个词语声学特征的敏感词分数,所述词语声学特征的敏感词分数指示所述词语声学特征对应的词语属于敏感词的概率值。
在一种可能的实现方式中,所述分数确定模块,还用于通过所述敏感词识别模型中的敏感词分数确定层,确定每个词语声学特征的敏感词分数。
在另一种可能的实现方式中,所述特征提取模块,还用于对所述音频信号进行特征提取,得到所述音频信号的原始声学特征;将所述原始声学特征转换为向量格式,得到第二声学特征;通过所述敏感词识别模型中的声学转换网络对所述第二声学特征进行转换,得到所述第一声学特征。
在另一种可能的实现方式中,所述装置还包括:
第二获取模块,用于获取至少一个第一样本数据,以及获取至少一个第二样本数据,每个第一样本数据包括不包含敏感词的第一样本音频信号,每个第二样本数据包括包含敏感词的第一样本音频信号和所述包含敏感词的第一样本音频信号中包含的敏感词;
第一训练模块,用于根据所述至少一个第一样本数据和所述至少一个第二样本数据,训练所述敏感词识别模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911329327.2/2.html,转载请声明来源钻瓜专利网。





