[发明专利]一种分布式麦克风的说话人聚类方法有效

专利信息
申请号: 201010568386.8 申请日: 2010-11-29
公开(公告)号: CN102074236A 公开(公告)日: 2011-05-25
发明(设计)人: 杨毅;刘加 申请(专利权)人: 清华大学
主分类号: G10L17/00 分类号: G10L17/00;G10L15/08;G10L19/02
代理公司: 西安智大知识产权代理事务所 61215 代理人: 贾玉健
地址: 100084 北京市10*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种分布式麦克风的说话人聚类方法,先对分布式麦克风采集的信号进行预处理,再对声源信号片段采用时延估计法计算,得到对应的时延估计向量,然后排除错误数据并进行说话人分割,最后根据说话人分割的结果进行说话人聚类,本发明以分布式麦克风作为信号采集和输出设备,计算语音信号片段的时延向量,通过排除错误数据提高时延估计精度,对时延向量采用聚类算法将语音信号片段按说话人身份分别归类,设备价格低廉,具有使用方便的优势,可应用于复杂声学环境下的多人多方对话场景。
搜索关键词: 一种 分布式 麦克风 说话 人聚类 方法
【主权项】:
1.一种分布式麦克风的说话人聚类方法,其特征在于:包括以下步骤:第一步,对分布式麦克风采集的信号进行预处理首先对分布式麦克风获得的多路声源信号进行预处理,先对多路声源信号分帧及进行快速傅立叶变换(FFT)变换,然后对多路声源信号进行端点检测,将信号分为声源信号和非声源信号两类,端点检测的目的在于从数字语音信号中区分出语音信号和非语音信号,语音端点检测方法可采用子带频谱熵算法,首先将每帧语音的频谱划分成n(n为大于零的整数)子带,计算出每个子带的频谱熵,然后把相继n帧的子带频谱熵经过一组顺序统计滤波器获得每帧的频谱熵,根据频谱熵的值对输入的语音进行分类,具体步骤为:将每帧的语音信号经过快速傅立叶变换(FFT)之后得到它在功率谱上的NFFT个点Yi(0≤i≤NFFT),每个点在频谱域上的概率密度可用公式(1)表示:pi=Yi/Σk=0NFFT-1Yk---(1)]]>其中:Yk为经过FFT变换的语音信号在功率谱上的第k个点,Yi为经过FFT变换的语音信号在功率谱上的第i个点,NFFT为i的个数,pi为第i个点在频谱域上的概率密度,相应信号在频谱域上的熵函数定义可用公式(2)表示:H=-Σk=0NFFT-1pklog(pk)---(2)]]>其中:pk为第k个点在频谱域上的概率密度,NFFT为i的个数,H为频谱域上的熵函数,将频域上的NFFT个点划分成K个互不重叠的频段,称为子带,计算第l帧频谱域上每个点的概率如公式(3)所示:pl[k,i]=(Yi+Q)/Σj=mkmk+1-1(Yj+Q)---(3)]]>其中:Yj为经过FFT变换的语音信号在功率谱上的第j个点,Yi为第k个子带上的点,(0≤k≤K-1,mk≤i≤mk+1-1)为子带下限,Q为常数,pl[k,i]为第l帧频谱域上每个点的概率,根据信息熵的定义,第l帧的第k个子带的频谱熵的值如公式(4)所示:Es[l,k]=Σi=mkmk+1-1pl[k,i]log(pl[k,i])(0kK-1)---(4)]]>其中:pl[k,i]为第l帧频谱域上每个点的概率,Es[l,k]为第l帧的第k个子带的频谱熵,根据下面公式(5)我们可以计算出第l帧的频谱信息熵:Hl=-1KΣk=0K-1Eh[l,k]---(5)]]>其中:Eh[l,k]为第l帧的第k个子带的频谱熵,K为子带个数,Hl为经过滤波平滑处理后的第l帧的第k个子带的信息熵,定义如公式(6)所示:Eh[l,k]=(1-λ)Es(h)[l,k]+λEs(h+1)[l,k](0≤k≤K-1)(6)其中:Es(h)[l,k]获得方法如下:算法中每个子带的顺序统计滤波器作用在一组长度为L的子带信息熵Es[l-N,k],KEs[l,k],KEs[l+N,k]上,将这组子带信息熵按升序顺序排序,Es(h)[l,k]是Es[l-N,k],KEs[l,k],KEs[l+N,k]中的第h个最大值;λ为一常数,Eh[l,k]为滤波平滑处理后的第l帧的第k个子带的信息熵,由公式(5)可以得到每帧的信号有一个频谱熵Hl,当Hl的值大于事先设定的阈值T时,将第l帧判别语音帧,否则判为非语音帧;阈值T的定义为T=βAvg+θ,其中β=0.01,θ=0.1,Em[k]为Es[0,k],K,Es[N-1,k]的中值,Avg是输入信号最开始N帧的噪声估计,第二步,对声源信号片段采用时延估计法计算,得到对应的时延估计向量首先确定空间坐标,具体方法为:对每个麦克风按顺序编号M1,M2...,Mn,n为大于1的整数,选择初始编号为1和2的两个麦克风M1和M2,设M1的位置为原点坐标,M1到M2的方向为起点坐标轴方向,随后将每50帧语音信号视为一组语音片段,采用时延估计法对每组语音片段到任意两个麦克风之间的时延差进行估计,得到n(n-1)个时延估计值,如公式(7)所示:τk=τ^12τ^13Lτ^ijT---(7)]]>其中:为第i个麦克风和第j个麦克风之间的时延差估计,τk为时延差估计向量,时延估计可采用PHAT(相位变换)加权算法,其加权系数如公式(8)所示,时延估计方法如公式(9)~(10)所示:W(ω)=1|X1(ω)X2*(ω)|---(8)]]>其中:X1(ω)、X2(ω)分别为两路时域信号经过FFT变换之后的输出,*为共轭符号,Rx1x2(n)=IFFT(W(ω)·X1(ω)·X2*(ω))---(9)]]>τ^=arg maxnRx1x2(n)---(10)]]>其中:为两路信号的广义互相关函数,为x1和x2之间的时延估计值,第三步,排除错误数据并进行说话人分割首先需要去除无效数据,按下面公式(11)计算时延:τ[n]=τ^[n-1]SNR<ThrSNRτ^[n]SNRThrSNR---(11)]]>其中:n为某一帧的索引值,τ为某一帧对应的时延数据,为某一帧估计的时延数据,当某一时刻信噪比小于阈值ThrSNR时,采用上一时刻的估计时延作为该时刻的时延估计值,以及按公式(12)进一步计算时延:τ[n]=τ^[n-1]τ^[n]<Thrτ^[n]τ^[n]Thr---(12)]]>其中:n为某一帧的索引值,τ为某一帧对应的时延数据,为某一帧估计的时延数据,当某一时刻时延估计小于阈值Thr时,采用上一时刻的估计时延作为该时刻的时延估计值,然后对不同空间位置的说话人进行分割计算,首先计算后验概率βik)如公式(13)所示:βi(τk)=αig(τk;μi.σi2)α1g(τk;μ1.σ12)+α2g(τk;μ2.σ22)+L+αig(τk;μi.σi2)---(13)]]>其中:为定义参数-,αi=1/i,i代表GMM模型的个数,的初始值采用K-means算法计算,τk为公式7计算获得的时延估计向量,βik)为后验概率,公式(14)为参数更新算法:μ^i=Σk=1nβi(τk)τkΣk=1nβi(τk)σ^i2=1dΣk=1nβi(τk)(τk-μi)T(τk-μi)Σk=1nβi(τk)α^i=1nΣk=1nβi(τk)---(14)]]>其中:为参数估计值,为GMM模型参数的估计,βik)为公式13计算所得的后验概率,当时停止更新参数,此处min为一常数,代表最小容忍值,第四步,根据说话人分割的结果进行说话人聚类利用一种基于K-means的算法对分割后的语音片段进行聚类,先计算每个集合的域密度,将密度最大的点作为初始点,下一个初始点为与第一个初始点距离最大的点,以此类推直到初始点的数目符合要求;其次计算样本点到集合中心的距离来更新中心的值,选择符合公式(15)的采样点作为新的集合中心进行更新,Func=Σj=1JΣn=1M||τ^[n]-τj||2---(15)]]>其中:为时延估计向量和每个语音片段的聚类中心τj的距离,τj[n]为中心向量,J为说话人个数,M为麦克风个数,最后根据集合中心向量和语音片段向量的距离来对不同空间说话人的语音片段进行归类并标注。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201010568386.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top