[发明专利]一种新闻视频拆条方法和系统在审
申请号: | 202111305567.6 | 申请日: | 2021-11-05 |
公开(公告)号: | CN114051154A | 公开(公告)日: | 2022-02-15 |
发明(设计)人: | 刘潇婧 | 申请(专利权)人: | 新华智云科技有限公司 |
主分类号: | H04N21/233 | 分类号: | H04N21/233;H04N21/234;H04N21/439;H04N21/44;H04N21/845;H04N21/8547;G06V30/414 |
代理公司: | 杭州裕阳联合专利代理有限公司 33289 | 代理人: | 吴文杰 |
地址: | 310012 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 新闻 视频 方法 系统 | ||
1.一种新闻视频拆条方法,其特征在于,所述方法包括:
获取视频数据,对所述视频数据中的语音数据转化为语音文字,并对所述视频数据中的字幕化为字幕文字;
获取语音数据转化的语音文字对应的时间戳,以及获取字幕文字对应的时间戳;
视频数据根据语音文字按句进行切割生成视频片段,根据视频片段中的语音文字和字幕文字进行拼接,拼接后插入特殊字符CLS,进一步将包含CLS的整体文字特征输入到BERT模型中,输出视频片段的语义特征向量;
根据语音文字对应的时间戳计算相邻语音文字句子之间的时间间隔,根据所述时间间隔构建one-hot向量作为语音特征向量,将所述语音特征向量和所述语义特征向量进行拼接;
将拼接后语音特征向量和所述语义特征向量输入到二分类模型中训练,最后根据分类分数输出结果。
2.根据权利要求1所述的一种新闻视频拆条方法,其特征在于,采用ASR语音识别技术将视频数据中的语音数据转化为语音文字,并获取对应语音文字的时间戳,采用OCR文字识别技术识别视频字幕文字,并获取对应文字的时间戳。
3.根据权利要求1所述的一种新闻视频拆条方法,其特征在于,所述拆条方法还包括:将获取的语音文字按句进行切割,并根据切割的语音文字将对应的视频数据进行切割,生成对应的视频片段,获取切割后的视频片段的字幕文字,并将切割后的视频片段的字幕文字进行合并拼接。
4.根据权利要求1所述的一种新闻视频拆条方法,其特征在于,所述拆条方法还包括:对获取的语音文字的句子进行标注,设置结尾句标签字符和非结尾句标签字符,并建立语音文字句子的标签特征向量。
5.根据权利要求1所述的一种新闻视频拆条方法,其特征在于,所述拆条方法包括:以128个视频片段为长度将视频分为连续不重复的子块,且每个子块作为独立的视频作为输入数据。
6.根据权利要求1所述的一种新闻视频拆条方法,其特征在于,所述语音特征向量构建方法包括:根据视频片段中每个句子之间时间间隔,将时间间隔分段赋值,其中时间间隔为0/s的赋值为0,(0s,5s]为1,(5s,10s]为2,(10s,+∞)为3,并将上述0、1、2、3转化为one-hot向量作为语音特征向量。
7.根据权利要求6所述的一种新闻视频拆条方法,其特征在于,所述拆条方法还包括:将拼接后语音特征向量和所述语义特征向量输入到预训练模型BERT进行特征提取后,将提取后的特征输入到全连接层,并接入由sigmoid函数构建的二分类模型中对当前片段是否为结尾句进行分类判断。
8.根据权利要求7所述的一种新闻视频拆条方法,其特征在于,在二分类模型的训练过程中,计算由多个视频片段构成的视频子块的熵交叉误差,用于计算结尾句的概率:
其中J为熵交叉误差,yi为标签、pi是结尾句的概率,采用梯度下降方法计算所述熵交叉误差的最小值作为训练完毕指标,并用验证集对所述二分类模型训练结果进行验证。
9.一种新闻视频拆条系统,其特征在于,所述系统执行上述权利要求1-8中任意一项所述的一种新闻视频拆条方法。
10.一种计算机可读存储介质,其特征在于,计算机可读存储介质存储有计算机程序,所述计算机程序可被处理器执行上述权利要求1-8中任意一项所述的一种新闻视频拆条方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华智云科技有限公司,未经新华智云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111305567.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种全自动整骨装置
- 下一篇:一种模数转换器增益校准方法、电路以及设备