[发明专利]一种音频处理方法有效

申请号：	201810432441.7	申请日：	2018-05-08
公开（公告）号：	CN108419124B	公开（公告）日：	2020-11-17
发明（设计）人：	易正宏	申请（专利权）人：	北京酷我科技有限公司
主分类号：	H04N21/439	分类号：	H04N21/439;H04N21/8547;H04N21/443;H04N21/4782;H04N21/442;H04N21/2662
代理公司：	北京亿腾知识产权代理事务所(普通合伙) 11309	代理人：	陈霁
地址：	100084 北京市海淀区农大***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种音频处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种音频处理方法，属于流媒体技术领域。该方法包括以下步骤：打开声音的音频文件，将时间粒度调节到预设时间范围；监测声音的音频文件波形，计算预设时间范围内的声音平均分贝值；根据声音平均分贝值确定声音能量的大小，当声音能量小于预设声音平均分贝阈值时，获得一个声音间隔；当一段时间内统计的声音间隔次数超过一定次数时，确定声音为说话模式；或当一段时间内统计的时间相邻一小段时间声音能量的比值超过一个阈值的次数时，确定声音为说话模式。在直播过程中，增加了对于音频处理的环节之后，系统会自动识别麦克风的音频采集内容，自动判断是说话还是唱歌，提高用户的使用感受。

技术领域

本发明涉及流媒体技术领域，尤其涉及一种音频处理方法。

背景技术

目前，网络直播是利用互联网及流媒体技术进行直播，主播用户客户端通过摄像头采集图像数据，麦克风采集音频数据，同步音频/视频之后进行推流，其他观众则会从CDN服务器拉取视频流进行观看。

在实际中，主播有可能会涉及谈话或者唱歌等表现形式，如果是唱歌形式，往往存在相应的伴奏等音频，但目前的直播工具往往不能辨别唱歌和谈话上的区别，造成在直播过程中，用户想进来听主播唱当前背景音乐时进来后可能发现主播正在那说话，并没有唱歌。

发明内容

本发明的目的，是解决主播过程中，根据音频流数据识别主播当前行为，技术方案如下：

打开声音的音频文件，将时间粒度调节到预设时间范围；

监测声音的音频文件波形，计算预设时间范围内的声音平均分贝值；

根据声音平均分贝值确定声音能量的大小，当声音能量小于预设声音平均分贝阈值时，获得一个声音间隔；

当一段时间内统计的声音间隔次数超过一定次数时，确定声音为说话模式；或

监测声音的音频文件波形，计算预设时间范围内的声音平均分贝值；