[发明专利]视频处理方法、装置、存储介质及电子设备有效
| 申请号: | 202010468397.2 | 申请日: | 2020-05-28 |
| 公开(公告)号: | CN111901627B | 公开(公告)日: | 2022-12-30 |
| 发明(设计)人: | 程驰;谢文珍 | 申请(专利权)人: | 北京大米科技有限公司 |
| 主分类号: | H04N21/234 | 分类号: | H04N21/234;H04N21/439;H04N21/44;H04N21/845 |
| 代理公司: | 北京恒博知识产权代理有限公司 11528 | 代理人: | 李宁宁 |
| 地址: | 100025 北京市朝*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 视频 处理 方法 装置 存储 介质 电子设备 | ||
1.一种视频处理方法,其特征在于,所述方法包括:
获取原始视频数据,基于所述原始视频数据中的音频数据,得到至少一个有效语音片段;
基于预设间隔时长对所述至少一个有效语音片段进行分组得到至少一个长语音片段;其中,所述至少一个长语音片段中包括有效发音部分、杂音部分和无声部分;
根据所述至少一个长语音片段的时长和/或所述杂音部分和所述无声部分的总时长,确定所述至少一个长语音片段中的有效发音时长占比信息;
确定所述至少一个长语音片段对应的至少一个视频片段;
确定所述至少一个视频片段中的正脸数、笑脸数、正脸占比和/或笑脸占比;
将分析结果和所述至少一个视频片段输入至二分类模型进行分类处理得到所述至少一个视频片段对应的分类结果;其中,所述分析结果包括所述有效发音时长占比信息、所述正脸数、所述笑脸数、所述正脸占比和/或所述笑脸占比中的至少一种;
基于所述分类结果选择至少一个视频片段作为目标视频片段;
所述确定所述至少一个视频片段中的正脸数、笑脸数、正脸占比和/或笑脸占比,包括:
获取所述至少一个视频片段的时长,并对所述至少一个视频片段进行分帧处理得到至少一个视频图像;对所述至少一个视频图像进行人脸识别,得到所述正脸数和/或所述笑脸数;基于所述正脸数、所述笑脸数和所述时长,计算得到所述正脸占比和/或所述笑脸占比。
2.根据权利要求1所述的方法,其特征在于,所述对所述至少一个视频图像进行人脸识别,得到所述正脸数和/或所述笑脸数,包括:
对所述至少一个视频图像进行姿态分析获取所述正脸数;和/或
对所述至少一个视频图像进行表情分析获取所述笑脸数。
3.根据权利要求1所述的方法,其特征在于,所述基于所述原始视频数据中的音频数据,得到至少一个有效语音片段,包括:
基于语音端点检测VAD算法对所述音频数据进行分帧处理得到多个分帧音频数据;
基于预设分类模型和语音识别ASR算法对所述多个分帧音频数据进行分类处理得到所述至少一个有效语音片段。
4.根据权利要求1所述的方法,其特征在于,所述二分类模型为预先训练好的模型,其训练过程包括:
确定正样本集合和负样本集合;其中,所述正样本集合和所述负样本集合包括有效发音时长占比信息标签、正脸数标签、笑脸数标签、正脸占比标签和/或笑脸占比标签中的至少一种;
基于所述正样本集合和所述负样本集合训练得到所述二分类模型。
5.根据权利要求1所述的方法,其特征在于,所述确定所述至少一个长语音片段对应的至少一个视频片段,包括:
确定所述至少一个长语音片段对应的时间标签信息;
基于所述时间标签信息,从所述原始视频数据中提取与所述至少一个长语音片段对应的所述至少一个视频片段。
6.根据权利要求1所述的方法,其特征在于,所述确定所述至少一个长语音片段中的有效发音时长占比信息,包括:
确定所述至少一个长语音片段的时长和间隔时长;
基于所述时长和所述间隔时长计算得到所述有效发音时长占比信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大米科技有限公司,未经北京大米科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010468397.2/1.html,转载请声明来源钻瓜专利网。





