[发明专利]一种基于麦克风阵列的智能语音转文字及同声翻译系统有效
申请号: | 202010065716.5 | 申请日: | 2020-01-20 |
公开(公告)号: | CN111276150B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 宫琴;潘长勇;宋健;丁鸫翔 | 申请(专利权)人: | 杭州耳青聪科技有限公司;清华大学 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L21/0216;G06F40/58 |
代理公司: | 无锡盛阳专利商标事务所(普通合伙) 32227 | 代理人: | 顾吉云;黄莹 |
地址: | 310000 浙江省杭州市萧山区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 麦克风 阵列 智能 语音 转文 同声翻译 系统 | ||
1.一种基于麦克风阵列的智能语音转文字及同声翻译系统,其包括:声音采集模块、音频转换模块、语音增强模块、翻译模块;所述声音采集模块智能地选取目标声源,将数据送入所述音频转换模块,进行模拟语音数据和数字语音数据之间的转换;所述语音增强模块通过数字信号处理器向所述音频转换模块中的音频编解码芯片发送控制信号,将所述音频转换模块传输过来的语音信号进行处理及其控制语音信号的传输;最后处理过的数字语音信号送入所述翻译模块,按照用户选择的目标语言进行实时翻译;翻译后的文字数据、声音数据通过文字或者音频的方式传递给用户;
其特征在于:
所述声音采集模块包括麦克风阵列、信号放大电路、带通滤波器、电源管理电路;所述麦克风阵列包括两个麦克风,两个麦克风之间的间隔设置为15mm;所述信号放大电路包括两级放大电路,其中一级放大电路设置在所述麦克风阵列与所述带通滤波器之间,二级放大电路设置在所述带通滤波器之后;所述带通滤波器包括由二阶低通电路、二阶高通电路组成,所述一级放大电路传入的声信号,经过所述带通滤波器滤波后,声信号通过所述二级放大电路进行放大,使滤波后的信号达到预设的电压范围;由所述麦克风阵列采集的声信号通过所述一级放大电路、所述带通滤波器、所述二级放大电路进行放大、工频滤波处理、放大升压处理后送入所述音频转换模块中进行数模转换;所述电压管理电路同时为所述声音采集模块、所述音频转换模块、所述语音增强模块供电;
所述语音增强模块中通过预先植入的语音增强算法对所述音频转换模块传入的声信号进行增强处理;所述语音增强算法包括以下步骤:
S1:定义所述麦克风阵列中与目标声源s1接近的麦克风为前向麦克风mic1,其采集到的声信号为m1(n),另一个麦克风mic2采集到的声信号为m2(n);对声信号m1(n)、m2(n)进行分帧与加窗之后,再进行时频变换即得到时频分布信号M1(l,k)和M2(l,k),其中:l和k分别是频率点和时间窗的序号;
S2:因为同一个声源的声信号到达两个麦克风mic1、mic2的时间存在延迟,计算延迟系数t(l,k);
S3:将所述延迟系数与所述目标声源的理想延迟时间δ1进行比较,确定所述目标声源的能量所占成分;
S4:基于所述延迟系数与所述目标声源的理想延迟时间δ1的比较结果,计算M1(l,k)的掩蔽权重B(l,k),得到增强信号的时频分布表达式:
S5:对目标声源对应的所述增强信号进行傅里叶反变换,然后利用重叠相加法,可以得到增强后的信号此时获得的信号中方向性的竞争语音噪声已经被抑制;
步骤S3中,所述延迟系数t(l,k)的计算方法包括如下步骤:
b1:设目标声源存在竞争性语音噪声:干扰噪声源1、干扰噪声源2...干扰噪声源Num-1,其中,Num取值为自然数,所述目标声源偏离正向的角度为θ1,所述干扰噪声源1、干扰噪声源2...干扰噪声源Num-1偏离正向的角度为θ2、θ3...θNum;
则:所述前向麦克风mic1采集到的混合信号m1(n)为:
m1(n)=s1(n)+s2(n)+s3(n)+...+sNum(n)
其中:s1(n)、s2(n)、s3(n)、sNum(n)分别为通过麦克风mic1采集到的所述目标声源、所述干扰噪声源1、所述干扰噪声源2、所述干扰噪声源Num-1发出的声音信号;
因为所述前向麦克风mic1更接近所述目标声源s1,所以麦克风mic2采集到的信号相对于所述前向麦克风mic1采集到的信号会有一定的延迟,则根据集合关系,可得麦克风mic2采集到的混合信号m2(n):
其中,d为所述前向麦克风mic1和麦克风mic2质检的距离,c为声速,fs为采样频率;
b2:在混合信号的一个时频单元内,所述目标声源的信号占主导时,有如下关系:
其中,δ1为所述目标声源的理想延迟时间,l和k分别是频率点和时间窗的序号;
设,当所述目标声源占主导时,有如下关系:
其中:l和k分别是频率点和时间窗的序号,Pi为圆周率π;
令:约等式右边的代数式为t(l,k),则,根据两个麦克风mic1、mic2采集到的数据可计算得到每个频域点的t(l,k);
所述目标声源的理想延迟时间δ1的表达式为:
步骤S4中的所述掩蔽权重B(l,k)的表达式为:
其中,式中a1、a2、a3的取值范围是0~1之间的实数;
所述翻译模块包括两个模式:普通模式和噪声模式;所述普通模式适用于环境噪音小、只有一个目标声源的情况,此模式下进行同声翻译时,不启动所述声音采集模块、所述音频转换模块、所述语音增强模块中针对多个竞争声源的去噪功能,采集到的声音信号直接进行数模转换后进行实时翻译流程;所述噪声模式下,启动针对多个竞争声源的去噪功能,通过所述声音采集模块采集的声音信号经过所述音频转换模块、语音增强模块中的去噪、语音增强后,进行实时翻译流程;所述翻译模块中对于翻译后的结果的确认方式,支持通过文本显示和语音播放两种形式通知给用户;
所述翻译模块通过实时语音转写接口与翻译引擎通信实现实时翻译,其流程包括:
a1:通过读转写模块建立与翻译引擎的通信;
a2:通信建立后,通过读转写模块基于客户选择的源语言、目标语言、口音参数,将传入的声音信号转换成文本数据;
a3:将所述文本数据通过实时翻译模块传给所述翻译引擎进行翻译,得到目标语言的文本信息后,传送给结果确认模块;
a4:所述结果确认模块按照用户的预设的翻译结果确认方式,将所述目标语言的文本信息以文本的形式显示给用户,或者将得到的所述目标语言的文本信息通过语音合成模块转换为音频数据后,通过播放软件将所述音频数据实时播放给用户;
所述音频转换模块包括音频解码器和3.5mm音频接口,所述语音增强模块包括数字信号处理器;所述语音增强模块通过所述数字信号处理器芯片的I2C接口向所述音频解码器发送控制信号,通过所述数字信号处理器芯片的McASP接口连接所述音频解码器,交换数字音频信号的数据;
所述翻译模块单独安装在移动设备上,在所述普通模式下,基于其所在移动设备的声音采集模块采集目标声源的声信号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州耳青聪科技有限公司;清华大学,未经杭州耳青聪科技有限公司;清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010065716.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:船舶交通服务系统综合信息平台
- 下一篇:无线通信方法、网络设备和终端设备