[发明专利]一种字幕纠正方法、字幕显示方法、装置、设备及介质有效
| 申请号: | 202010881048.3 | 申请日: | 2020-08-27 |
| 公开(公告)号: | CN111968649B | 公开(公告)日: | 2023-09-15 |
| 发明(设计)人: | 陈小帅 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G10L15/26 | 分类号: | G10L15/26;H04N21/233;H04N21/235 |
| 代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 梁嘉琦 |
| 地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 字幕 纠正 方法 显示 装置 设备 介质 | ||
本发明公开了一种字幕纠正方法、字幕显示方法、装置、设备及介质,字幕纠正方法包括:获取视频数据中的音频流数据和视频画面数据;对所述音频流数据进行语音识别,得到第一字幕信息;对所述视频画面数据进行文本识别;根据所述文本识别的结果对所述第一字幕信息进行纠正,得到第二字幕信息。字幕显示方法包括:获取视频数据以及第二字幕信息;在播放所述视频数据时,显示所述第二字幕信息。本发明基于对视频画面内容的文本识别来纠正语音识别到的字幕信息,能够将涉及视频画面内容的字幕信息进行纠正,提升语音识别到的字幕与视频内容之间的一致性,提高了字幕内容的准确性,有助于提高用户的观看体验,可广泛应用于互联网技术领域。
技术领域
本发明涉及互联网技术领域,尤其是一种字幕纠正方法、字幕显示方法、装置、设备及介质。
背景技术
随着互联网技术的不断发展,视频直播的应用也越来越广泛,在直播视频中显示字幕已经成为提高用户观看体验的重要手段。
在视频直播中,一般是通过语音识别技术将视频中播放的音频内容进行文字转换,然后将转换得到的字幕内容展示在视频下方,方便用户观看视频。
但是,对于目前这种基于语音识别技术生成的字幕,字幕内容的准确性容易受到音频质量的影响,例如在播放人物对话视频时,由于视频中的人物发音不够准确,则会导致语音识别到的结果不准确。另外,字幕内容的准确性还受到同音字的影响,例如,当音频内容中出现专业词汇“池化处理”时,语音识别转换得到的字幕为“赤化处理”,影响用户的观看体验。
发明内容
有鉴于此,本发明实施例提供一种字幕纠正方法、字幕显示方法、装置、设备及介质,以提高字幕内容的准确性。
根据本发明的第一方面,提供了一种字幕纠正方法,包括:
获取视频数据中的音频流数据和视频画面数据;
对所述音频流数据进行语音识别,得到第一字幕信息;
对所述视频画面数据进行文本识别;
根据所述文本识别的结果对所述第一字幕信息进行纠正,得到第二字幕信息。
根据本发明的第二方面,提供了一种字幕显示方法,包括:
获取视频数据以及第二字幕信息;
在播放所述视频数据时,显示所述第二字幕信息;
其中,所述第二字幕信息根据本发明第一方面所述的字幕纠正方法获得。
根据本发明的第三方面,提供了一种字幕纠正装置,包括:
第一获取模块,用于获取视频数据中的音频流数据和视频画面数据;
语音识别模块,用于对所述音频流数据进行语音识别,得到第一字幕信息;
文本识别模块,用于对所述视频画面数据进行文本识别;
纠正模块,用于根据所述文本识别的结果对所述第一字幕信息进行纠正,得到第二字幕信息。
根据本发明的第四方面,提供了一种字幕显示装置,包括:
第二获取模块,用于获取视频数据以及第二字幕信息;
显示模块,用于在播放所述视频数据时,显示所述第二字幕信息;
其中,所述第二字幕信息根据本发明第三方面中所述的字幕纠正装置获得。
根据本发明的第五方面,提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如本发明第一方面或第二方面所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010881048.3/2.html,转载请声明来源钻瓜专利网。





