[发明专利]教师声音和非教师声音的区分方法、装置、设备以及介质在审
申请号: | 202210338821.0 | 申请日: | 2022-04-01 |
公开(公告)号: | CN114822556A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 孙德宇 | 申请(专利权)人: | 北京中庆现代技术股份有限公司 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04;G10L17/08;G06K9/62 |
代理公司: | 北京维正专利代理有限公司 11508 | 代理人: | 赵万凯 |
地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 教师 声音 区分 方法 装置 设备 以及 介质 | ||
本申请涉及一种教师声音和非教师声音的区分方法、装置、设备以及介质,涉及声音分类的技术领域,其方法包括采集课堂声音,根据所述课堂声音得到多段声音片段的声纹向量;采用BIRTCH聚类算法和Calinski‑Harabaz指数结合的方法,基于所述声纹向量进行声纹聚类,区分与所述声纹向量对应的声音片段为非教师声音还是教师声音。本申请具有精准地区分出课堂中的声音是教师声音还是非教师声音的效果。
技术领域
本申请涉及声音分类的技术领域,尤其是涉及一种教师声音和非教师声音的区分方法、装置、设备以及介质。
背景技术
在课堂中,经常能听到教师的声音和非教师的声音,在课堂分析过程中,往往需要区分出课堂中这些不同的声音,以便分析课堂中不同的教学行为,例如教师讲授等。
目前,通常采用人工、简单的K-means算法或GMM-Kmeans算法区分出课堂中的声音是教师声音还是非教师声音,其中,人工区分工作量大,成本高,K-means算法或GMM-Kmeans算法的区分精度不高,准确性较差。
发明内容
为了精准地区分出课堂中的声音是教师声音还是非教师声音,本申请提供一种教师声音和非教师声音的区分方法、装置、设备以及介质。
第一方面,本申请提供一种教师声音和非教师声音的区分方法,采用如下的技术方案:
一种教师声音和非教师声音的区分方法,包括:
采集课堂声音,根据所述课堂声音得到多段声音片段的声纹向量;
采用BIRTCH聚类算法和Calinski-Harabaz指数结合的方法,基于所述声纹向量进行声纹聚类,区分与所述声纹向量对应的声音片段为非教师声音还是教师声音。
通过采用上述技术方案,利用BIRTCH聚类算法对声纹向量进行声纹聚类,利用Calinski-Harabaz指数评价聚类效果好坏的特性来提高聚类的精准度,使得聚类结果更加准确,进而能够精准地区分出课堂中的声音是教师声音还是非教师声音。
优选的,所述采集课堂声音,根据所述课堂声音得到多段声音片段的声纹向量,包括:
将所述课堂声音输入至训练好的声纹模型中,得到多段声音片段的声纹向量。
优选的,将所述课堂声音输入至训练好的声纹模型中,得到多段声音片段的声纹向量,包括:
将所述课堂声音分割为多段声音片段;
对所述多段声音片段分别进行声纹提取,得到所述声纹向量。
优选的,所述将所述课堂声音分割为多段声音片段,包括:
将所述课堂声音划分为多个片段,相邻片段之间具有共有部分和非共有部分;
分别计算共有部分与相邻片段的非共有部分的声纹特征匹配度;
基于所述声纹特征匹配度,获取切换点;
按照所述切换点将所述课堂声音分割为多段声音片段。
通过采用上述技术方案,基于声纹特征匹配度检测出切换点,将课堂声音分割为多段声音片段,每段声音片段均是同一类声音,例如,其中一段声音片段为教师声音,一段声音片段为噪音;由此,便于后期对每段声音片段进行分类。
优选的,所述声纹模型的训练方法,包括:
获取开源的声音数据集,将预先采集的课堂声音制作为课堂声音数据集,将开源的声音数据集和课堂声音数据集共同作为样本集;
将所述样本集中的样本输入至所述声纹模型中,利用深度学习算法对所述声纹模型进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中庆现代技术股份有限公司,未经北京中庆现代技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210338821.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于检测液态乳中真菌毒素的方法及其检测设备
- 下一篇:悬灸器