[发明专利]基于语音识别的视频生成方法、系统、装置和存储介质在审
| 申请号: | 201910846382.2 | 申请日: | 2019-09-09 |
| 公开(公告)号: | CN110781328A | 公开(公告)日: | 2020-02-11 |
| 发明(设计)人: | 呼伦夫 | 申请(专利权)人: | 天脉聚源(杭州)传媒科技有限公司 |
| 主分类号: | G06F16/532 | 分类号: | G06F16/532;G06F16/732;G10L15/26 |
| 代理公司: | 44205 广州嘉权专利商标事务所有限公司 | 代理人: | 黎扬鹏 |
| 地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音信息 视频信息 图片信息 文字特征 视频素材 文字信息 解析 视频 存储介质 检索模型 快速制作 人工检索 视频生成 视频数据 视频制作 语音识别 自动识别 预设 搜集 节约 制作 应用 图片 | ||
1.一种基于语音识别的视频生成方法,其特征在于,包括以下步骤:
获取语音信息,并对语音信息进行识别后生成为文字信息;
对文字信息进行解析后,获得文字特征;
结合文字特征和预设的检索模型获取图片信息和/或视频信息;
结合语音信息以及图片信息和/或视频信息生成视频数据。
2.根据权利要求1所述的一种基于语音识别的视频生成方法,其特征在于,所述对文字信息进行解析后,获得文字特征这一步骤,具体包括以下步骤:
识别文字信息中的名词词汇,并统计各名词词汇的出现次数;
根据各名词词汇的出现次数获取若干个关键名词词汇作为文字特征。
3.根据权利要求2所述的一种基于语音识别的视频生成方法,其特征在于,所述预设的检索模型为网络爬虫模型,所述结合文字特征和预设的检索模型获取图片信息和/或视频信息具体为:
结合文字特征和网络爬虫模型在网络中进行扫描检索,并获取与文字特征对应的图片信息和/或视频信息。
4.根据权利要求1所述的一种基于语音识别的视频生成方法,其特征在于,所述结合语音信息以及图片信息和/或视频信息生成视频数据这一步骤,具体包括以下步骤:
对检索获得的图片信息和/或视频信息进行排版;
采用预设的渲染引擎将语音信息以及图片信息和/或视频信息合成视频数据。
5.根据权利要求4所述的一种基于语音识别的视频生成方法,其特征在于,所述采用预设的渲染引擎将语音信息以及图片信息和/或视频信息合成视频数据这一步骤,具体为:
结合文字特征和预设的模型数据库获取播放场景模型;
采用预设的渲染引擎将语音信息、播放场景模型以及图片信息和/或视频信息合成视频数据。
6.根据权利要求1所述的一种基于语音识别的视频生成方法,其特征在于,还包括字幕生成步骤,所述字幕生成具体包括以下步骤:
按照预设方式将文字信息分成多段字幕后,对每段字幕进行标注排序,并按照排列顺序播放字幕;
通过识别视频播放过程中语音信息的文字,并根据识别到的文字控制各段字幕的显示时间,以使视频中的语音与字幕同步。
7.一种基于语音识别的视频生成系统,其特征在于,包括:
语音转换模块,用于获取语音信息,并对语音信息进行识别后生成为文字信息;
文字解析模块,用于对文字信息进行解析后,获得文字特征;
图片获取模块,用于结合文字特征和预设的检索模型获取图片信息和/或视频信息;
视频生成模块,用于结合语音信息以及图片信息和/或视频信息生成视频数据。
8.根据权利要求7所述的一种基于语音识别的视频生成方法,其特征在于,所述文字解析模块包括词汇统计单元和特征提取单元;
所述词汇统计单元用于识别文字信息中的名词词汇,并统计各名词词汇的出现次数;
所述特征提取单元用于根据各名词词汇的出现次数获取若干个关键名词词汇作为文字特征。
9.一种基于语音识别的视频生成装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现权利要求1-6任一项所述的一种基于语音识别的视频生成方法。
10.一种存储介质,其中存储有处理器可执行的指令,其特征在于,所述处理器可执行的指令在由处理器执行时用于执行如权利要求1-6任一项所述方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天脉聚源(杭州)传媒科技有限公司,未经天脉聚源(杭州)传媒科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910846382.2/1.html,转载请声明来源钻瓜专利网。





