[发明专利]面向直播场景的实时字幕翻译及系统实现方法有效

申请号：	201811523195.2	申请日：	2018-12-13
公开（公告）号：	CN109525787B	公开（公告）日：	2021-03-16
发明（设计）人：	张晖;丁一全	申请（专利权）人：	南京邮电大学
主分类号：	H04N5/278	分类号：	H04N5/278;G10L17/18;G10L17/04;G10L15/26
代理公司：	南京苏科专利代理有限责任公司 32102	代理人：	姚姣阳
地址：	210003 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	面向直播场景实时字幕翻译系统实现方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明揭示了一种面向直播场景的实时字幕翻译及系统实现方法，包括如下步骤：S1、使用训练数据集训练深度卷积神经网络；S2、对输入的每帧语音进行傅里叶变换，将时间和频率作为图像的两个维度，获取输入的语音信号的语谱图；S3、将获取的语谱图输入已经训练好的深度卷积神经网络，得到与语音信号相对应的文本数据；S4、将所述文本数据实时显示在屏幕上。本发明能够对每个人的讲话进行实时翻译，并及时显示在屏幕上，从而有效地提升了转写的效率，为观众带来了更为优异的用户体验。

技术领域

本发明涉及一种依托于计算机技术的实时翻译方法，具体而言，涉及一种面向直播场景的实时字幕翻译及系统实现方法，属于深度学习技术领域。

背景技术

近年来，网络直播行业及其相关技术的发展极为迅速，各种直播平台层出不穷，直播内容也日渐丰富，不仅有各类主题的个人直播，同时，以直播形式进行的会议及网络课程也陆续出现。正是基于这样的行业发展趋势，现如今，在各类直播平台中，对直播者的话语进行实时翻译显示的需求也愈来愈强烈。

目前，也出现了一些语音识别显示的技术方案，例如双向LSTM(Long Short-TermMemory，长短期记忆网络)、CNN(Convolutional Neural Networks，卷积神经网络)等技术，但在实际的应用过程中，人们发现，这些技术仍然存在着诸多不足之处。具体而言，双向LSTM技术虽然能够对语音长时相关性进行建模，但由于需要完整的序列才能进行语音识别，时延很高，很难适用于直播平台的实时翻译。CNN技术在2012年左右就被应用于语音识别中，但由于其使用固定长度的帧拼接作为输入，无法看到足够长的语音上下文信息，且将CNN作为一种特征提取器，所用的卷积层很少表达能力有限，因此其对于直播平台的实时翻译也很难适用。

综上所述，如何在现有技术的基础上提出一种面向直播场景的实时字幕翻译及系统实现方法，将直播者的话语实时翻译显示到屏幕上，也就成为了本领域内技术人员亟待解决的问题。

发明内容

鉴于现有技术存在上述缺陷，本发明的目的是提出一种面向直播场景的实时字幕翻译及系统实现方法，包括如下步骤：

S1、使用训练数据集训练深度卷积神经网络；

S2、对输入的每帧语音进行傅里叶变换，将时间和频率作为图像的两个维度，获取输入的语音信号的语谱图；

S3、将获取的语谱图输入已经训练好的深度卷积神经网络，得到与语音信号相对应的文本数据；

S4、将所述文本数据实时显示在屏幕上。

优选地，S1具体包括如下步骤：

S11、使用训练数据集对深度卷积神经网络进行训练，得到训练后的深度卷积神经网络；

S12、使用梯度下降法来优化所有参数以减少代价函数；

S13、使用梯度下降法进行训练，更新网络所有层的所有权重。

优选地，所述训练数据集包括多种语音信号的语谱图以及与所述语音信号对应的文本数据。