[发明专利]一种融合人像和语音的屏幕视频生成方法在审

申请号：	201410337865.7	申请日：	2014-07-16
公开（公告）号：	CN104092957A	公开（公告）日：	2014-10-08
发明（设计）人：	陆成刚;洪榛;田茂利;杜焕强;俞珊珊;黄蒙	申请（专利权）人：	浙江航天长峰科技发展有限公司
主分类号：	H04N5/265	分类号：	H04N5/265;G06F9/46
代理公司：	绍兴市越兴专利事务所 33220	代理人：	蒋卫东
地址：	312000 浙江省绍***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种融合人像语音屏幕视频生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种融合人像和语音的屏幕视频生成方法，属于计算机多媒体技术领域。

背景技术

当前国内外屏幕截取软件应用比较普遍，主要使用在教育教学、或用于电脑的屏幕监控上。有名的软件或系统有EZvid、BlueBerry、Screenr和CamStudio，以及屏幕录像专家、网络监控软件“第三只眼”等等。这些软件都能将计算机屏幕动态图像录制为视频文件，同时包含同步录制的环境声音。无论是录制教学录像、还是作为监控使用，现有的软件或系统都存在一种不足：就是缺少电脑用户的人像录制、以及将录制的人像编辑进入屏幕视频文件中。而这个实际上是一个很重要的功能，这是因为无论是教学还是监控，当电脑用户说话的声音录入后，通常由于环境噪声不一定较小，所以辨听用户的语音有时会有困难。这时候如果有人脸说话表情的录入就会起到帮助理解的作用。而现在由于笔记本电脑、上网本、平板电脑、以及智能手机的使用的普遍性，为实现这样的融入人像的屏幕视频提供了可能。众所周知这类设备的显示屏上方均配有摄像头，它可以供在录制屏幕的同时抓取用户的人脸。

有鉴于此，本发明人对此进行研究，专门开发出一种融合人像和语音的屏幕视频生成方法，本案由此产生。

发明内容

本发明的目的是提供一种融合人像和语音的屏幕视频生成方法，在音视频同步的基础上，再通过摄像头抓取用户的人像，进而将用户的人脸(即表情)与语音相结合，给视频观看者更直观的体验，提高对屏幕视频内容的理解。

为了实现上述目的，本发明的解决方案是：

一种融合人像和语音的屏幕视频生成方法，包括如下步骤：

1)开启图像抓取线程：按照预定帧率时间间隔捕获屏幕图像，然后通过视频编解码库进行编码，最后把视频码流存入视频文件；

2)在开启图像抓取线程的同时启动一个录音线程：抓取音频数据，然后通过音频编解码库进行编码，最后把音频码流写入视频文件；

3)音视频同步以音频为基准，录音线程每向视频文件写入一块音频数据的码流时，根据音频采样频率以及音频数据块录音块长度计算得到该视频文件的绝对时间T，所述绝对时间T即为视频文件播放时从文件开始到当前音频数据段的累计播放时间；

4)基于视频文件的绝对时间T，根据预设的视频帧率参数，计算得到截止到当前时刻的图像帧的数目a，a即为保持同步的帧数的理想值；然后从图像抓取线程里查询得到该线程到目前为止往视频文件写入的图像帧数目b，倘若a<b，则表示目前写入文件的图像帧过多，应在图像抓取线程中暂停往视频文件里写一次图像；倘若a≥b，则图像抓取线程正常执行往视频文中件写入一帧图像码流，实现音频和视频的同步，步骤3)和4)所述的处理过程伴随图像抓取线程和录音线程这两个线程的生命期全程。

5)启动人脸抓取线程：开启摄像头并捕获屏幕正前方的环境图像，对该图像调用人脸检测函数得到用户人脸的包围盒，提取出包围盒内的人脸图像数据；

6)确定步骤5)提取的人脸图像加入到屏幕图像的具体位置，通过替换法或者叠加法将人脸图像数据加入到当前帧屏幕图像中，生成融合了人像和语音的屏幕视频。

上述步骤3)所述的绝对时间T(秒)是通过音频采集来计算的：

T＝BlkNum*BlkLen/SR

其中，BlkLen是每一次抓取的录音数据块的长度(即样本数)，是系统设计时预先定义的，BlkNum是迄今为止抓取录音数据块的次数(即音频线程被调用的次数)，SR是音频采样率(即样本数/秒)，也是系统设计时预定义的。

上述步骤4)所述的图像帧的数目a＝T/fps，

其中，fps是帧率(frames per second)，是系统预设参数。

作为优选，为了避免人脸对屏幕的长时间遮挡，也为了免除不说话状态下的人脸表情对理解屏幕的无助性，步骤5)人脸抓取的时机应该选择在有语音活动的时段，这个机制称为语音驱动的人脸检测，在步骤2)开启录音线程后，需同时启动语音活动检测(Voice Activity Detection,语音活动检测，简称VAD)，具体过程为：通过语音活动检测对录音线程中的录音进行检查，当检测到有语音时，则先向人脸抓取线程发出人脸抓取通知，再进行音频编码，如果没有检测到有语音，则直接进行音频编码。

作为优选，上述步骤6)通过固定位置法确定人脸图像加入到屏幕图像的具体位置，选用屏幕的左上、右上、左下、右下四个位置中的其中一个地方加入人脸图像。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江航天长峰科技发展有限公司，未经浙江航天长峰科技发展有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410337865.7/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

H 电学

H04 电通信技术
H04N 图像通信，如电视
H04N5-00 电视系统的零部件
H04N5-04 .同步
H04N5-14 .视频图像信号电路
H04N5-222 .电视演播室线路；电视演播室装置；电视演播室设备
H04N5-30 .转变光或模拟信息为电信号
H04N5-38 .发射机电路

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种融合人像和语音的屏幕视频生成方法在审

专利文献下载