[发明专利]基于语音识别的视频生成方法、系统、装置和存储介质在审
| 申请号: | 201910846382.2 | 申请日: | 2019-09-09 |
| 公开(公告)号: | CN110781328A | 公开(公告)日: | 2020-02-11 |
| 发明(设计)人: | 呼伦夫 | 申请(专利权)人: | 天脉聚源(杭州)传媒科技有限公司 |
| 主分类号: | G06F16/532 | 分类号: | G06F16/532;G06F16/732;G10L15/26 |
| 代理公司: | 44205 广州嘉权专利商标事务所有限公司 | 代理人: | 黎扬鹏 |
| 地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音信息 视频信息 图片信息 文字特征 视频素材 文字信息 解析 视频 存储介质 检索模型 快速制作 人工检索 视频生成 视频数据 视频制作 语音识别 自动识别 预设 搜集 节约 制作 应用 图片 | ||
本发明公开了一种基于语音识别的视频生成方法、系统、装置和存储介质,其中方法包括以下步骤:获取语音信息,并对语音信息进行识别后生成为文字信息;对文字信息进行解析后,获得文字特征;结合文字特征和预设的检索模型获取图片信息和/或视频信息;结合语音信息以及图片信息和/或视频信息生成视频数据。本发明根据用户输入的语音信息进行自动识别和解析,并根据解析获得的文字特征获取到图片信息和/或视频信息,无需人工检索搜集图片或视频素材,极大地节约了视频素材收集时间,提高了制作视频的效率,达到快速制作视频的效果,可广泛应用于视频制作领域。
技术领域
本发明涉及视频制作领域,尤其涉及一种基于语音识别的视频生成方法、系统、装置和存储介质。
背景技术
随着互联网技术及自媒体的发展,出现很多视频平台和对应的视频软件,比如今日头条、西瓜视频以及抖音等,同时也产生了很多网络红人和自媒体博主。博主通过制作视频在视频软件上播放,获取点击量和吸引粉丝关注,比如通过制作电影点评视频或者时事点评视频等。博主在制作视频时,既要撰写稿词,又得收集图片或视频素材,所以制作一个视频需要花费较多的时间,严重影响了制作视频的效率。目前,博主们迫切希望有相应的方案帮助提高视频制作效率,然而目前尚没有相应的方案。
发明内容
为了解决上述技术问题,本发明的目的是提供一种能够基于语音识别快速制作视频的方法、系统、装置和存储介质。
本发明所采用的第一技术方案是:
一种基于语音识别的视频生成方法,包括以下步骤:
获取语音信息,并对语音信息进行识别后生成为文字信息;
对文字信息进行解析后,获得文字特征;
结合文字特征和预设的检索模型获取图片信息和/或视频信息;
结合语音信息以及图片信息和/或视频信息生成视频数据。
进一步,所述对文字信息进行解析后,获得文字特征这一步骤,具体包括以下步骤:
识别文字信息中的名词词汇,并统计各名词词汇的出现次数;
根据各名词词汇的出现次数获取若干个关键名词词汇作为文字特征。
进一步,所述预设的检索模型为网络爬虫模型,所述结合文字特征和预设的检索模型获取图片信息和/或视频信息具体为:
结合文字特征和网络爬虫模型在网络中进行扫描检索,并获取与文字特征对应的图片信息和/或视频信息。
进一步,所述结合语音信息以及图片信息和/或视频信息生成视频数据这一步骤,具体包括以下步骤:
对检索获得的图片信息和/或视频信息进行排版;
采用预设的渲染引擎将语音信息以及图片信息和/或视频信息合成视频数据。
进一步,所述采用预设的渲染引擎将语音信息以及图片信息和/或视频信息合成视频数据这一步骤,具体为:
结合文字特征和预设的模型数据库获取播放场景模型;
采用预设的渲染引擎将语音信息、播放场景模型以及图片信息和/或视频信息合成视频数据。
进一步,还包括字幕生成步骤,所述字幕生成具体包括以下步骤:
按照预设方式将文字信息分成多段字幕后,对每段字幕进行标注排序,并按照排列顺序播放字幕;
通过识别视频播放过程中语音信息的文字,并根据识别到的文字控制各段字幕的显示时间,以使视频中的语音与字幕同步。
本发明所采用的第二技术方案是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天脉聚源(杭州)传媒科技有限公司,未经天脉聚源(杭州)传媒科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910846382.2/2.html,转载请声明来源钻瓜专利网。





