[发明专利]一种基于机器视觉和语音信号处理相结合的假唱检测方法有效

申请号：	201610326306.5	申请日：	2016-05-16
公开（公告）号：	CN105959723B	公开（公告）日：	2018-09-18
发明（设计）人：	张家玄;任重	申请（专利权）人：	浙江大学
主分类号：	H04N21/234	分类号：	H04N21/234;H04N21/233;H04N21/44;H04N21/439;G10L15/25
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	林超
地址：	310027 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于机器视觉和语音信号处理相结合的假唱检测方法。分解为音频和视频，对音频信号分帧并提取特征参数，对视频信号每帧处理，提取特征参数，帧率与音频信号相同，将视频帧和音频帧进行对应组合并筛选，分为子特征参数序列，将每一子特征参数序列进行同步性分析，获得同步性帧移曲线，同步性分类判定，获得真唱或者假唱的结果。本发明实现了对演唱音视频的假唱检测和处理，检测效果精确，在每个片段上单独分析音视频的同步性，有效处理了输入唱歌视频的每个细节，可靠性高。
搜索关键词：	一种基于机器视觉语音信号处理相结合假唱检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于机器视觉和语音信号处理相结合的假唱检测方法，其特征在于：1)音视频信号分离：将现场录制的多媒体音视频信号分解为音频信号和视频信号两个部分；2)对于音频信号进行分帧处理并提取每一帧的特征参数；3)对于视频信号的每帧进行处理，提取图像特征点，再从中提取特征参数，使得视频信号的提取频率与音频信号的提取频率相同；所述步骤3)具体包括：3.1)脸部特征点提取：对于每一个视频帧，采用ASM(Active Shape Model)算法提取脸部关键特征点；3.2)嘴唇区域DCT系数提取：从脸部关键特征点中提取嘴唇特征点构成嘴唇区域，从中提取DCT系数作为视频特征参数；3.3)嘴唇形状参数提取：根据嘴唇特征点位置，通过计算像素距离得到嘴唇的高度、宽度和面积的三个形状参数；3.4)视频特征参数线性插值：在两个相邻的视频帧之间对步骤3.2)获得的视频特征参数和步骤3.3)获得的嘴唇高度、宽度和面积数据进行线性插值，线性插值后使得视频帧的帧频率与所述步骤2)音频信号分帧处理后的帧频率相同；4)将视频信号的视频帧和音频信号的音频帧进行对应组合，每一视频帧和对应的一音频帧组合形成一组音视频特征参数；然后进行筛选，筛选后将保留下来的所有组的音视频特征参数按顺序排序，以每5秒片段为单位进行分割获得各个子特征参数序列；5)将每一子特征参数序列进行同步性分析，获得同步性帧移曲线：6)同步性分类判定：对于已作真唱或者假唱标记的样本数据，均采用上述步骤1)～5)处理后获得样本数据所有的同步性帧移曲线，并输入到二元分类器中进行训练学习，再将待测数据采用上述步骤1)～5)处理后获得待测数据所有的同步性帧移曲线，用训练后的二元分类器对待测数据的同步性帧移曲线进行分类判断获得真唱或者假唱的结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江大学，未经浙江大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610326306.5/，转载请声明来源钻瓜专利网。

上一篇：一种地下室防护墙
下一篇：塔机固定用地脚螺栓的移动式定位工装

同类专利

专利分类

H 电学

H04 电通信技术
H04N 图像通信，如电视
H04N21-00 可选的内容分发，例如交互式电视，VOD〔视频点播〕
H04N21-20 .专门适用于内容分发的专用服务器，例如：VOD服务器；其操作
H04N21-40 .专门适用于接收内容或者与内容交互的客户端设备，如STB[机顶盒]；相关操作
H04N21-60 .用于在服务器和客户端之间或者在远程客户端之间的视频分配的网络结构或者处理
H04N21-80 .通过内容产生器独立于分配过程实现的内容或附加数据的生成或处理；内容本身
H04N21-81 ..其单媒体部件

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于机器视觉和语音信号处理相结合的假唱检测方法有效

专利文献下载