[发明专利]一种基于深度神经网络影视标签自动获取方法有效

申请号：	201910627545.8	申请日：	2019-07-12
公开（公告）号：	CN110516086B	公开（公告）日：	2022-05-03
发明（设计）人：	宣琦;王冠华;俞山青;孙佳慧;韩忙;孙翊杰	申请（专利权）人：	浙江工业大学
主分类号：	G06F16/483	分类号：	G06F16/483;G06N3/04;G06N3/08
代理公司：	杭州斯可睿专利事务所有限公司 33241	代理人：	王利强
地址：	310014 浙江省***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度神经网络影视标签自动获取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度神经网络影视标签自动获取方法，其特征在于，所述方法包括以下步骤：

步骤1：收集电影的台词，构建台词数据集；

步骤2：收集电影原声，构建声音数据集；

步骤3：在影视平台收集其所生成的标签，构建电影标签数据集；

步骤4：构建基于电影台词的自动打标签模型；

步骤5：采用共享节点CNN-LSTM算法构建基于电影原声的自动打标签模型；

步骤6：融合步骤4与步骤5所提及的两种模型；

所述步骤4中，构建基于电影台词的自动打标签模型包括以下过程：

4.1)用WordPiece工具来进行分词，并插入特殊的分离符[CLS]，用来分隔样本，和分隔符[SEP]，用来分隔样本内的不同句子，每个句子都对应的是一个矩阵X＝(x₁,x₂,…,x_t)，其中x_i都代表着第i个词的词向量，维度为d维，故x∈R^n×d，利用下列公式进行编码：

其中A,B为另外引入的另一个序列，引入A，B的目的是为了让x_t与每一个单词进行比较，从而得到y_t；

4.2)将上一步的结果输入模型进行预训练，模型计算公式如下：

及

其中t₁,t₂…,t_N为连续的tokens，t₁,t₂…,t_k也为连续的tokens，更进一步，设log_pt_k为r_k，建立双向模型，此模型便于对大规模文本进行训练，模型计算公式如下：

其中t₁,t₂…,t_N为连续的tokens，t₁,t₂…,t_k也为连续的tokens，θ_x是输入，输入的内容是最初始的词向量，θ_s是归一化层参数，为前向LSTM模型，为后向LSTM模型，在此基础上，百分之十五通过wordpiece所产生词向量会被随机遮掩；

4.3)经过模型预训练之后对向量进行嵌入操作，嵌入操作的种类中，Token embedding表示当前词的embedding，Segment Embedding表示当前词所在句子的index embedding，Position Embedding表示当前词所在位置的index embedding，其中为了能够同时表示单句子和句子对，多句子需要进行拼接作为单个句子用segment embedding和[SEG]来进行区分；三个embedding进行求和得到输入的向量；

4.4)将上一步中所生成的向量作为输入放进层数为12，维度为768的Transformer模型中；

4.5)利用fine-tuning微调对模型进行修改，取token的输出，作为输入softmax归一化层的输入，从而得到电影标签预测结果的输出；

所述步骤5中，采用共享节点CNN-LSTM算法构建基于电影原声的自动打标签模型包括以下过程：

5.1)通过快速傅里叶变换FFT得到与步骤4所对应的声音数据集的功率谱，然后利用三角窗函数将频谱映射到梅尔标度m，计算公式如下：

其中f为赫兹频率，设E(b)，0≤bB表示第b个子带上的梅尔标度功率谱系数，其中B表示预处理时的滤波器总数，MFCCN值就是对E(b)取对数后离散余弦变换的频谱，其中对E(b)取对数设为H(b),其计算公式如下：

其中L代表MFCCN的维度，得到MFCCN特征向量x_MFCCN如下所示：

x_MFCCN＝[MFCCN(0),MFCCN(1),...MFCCN(L-1)]^T (7)

5.2)对等长音频片段在重叠的短窗内进行短时傅里叶变换，每个傅里叶变换都生成一帧，这些连续的帧组合成矩阵构成频谱，最后在将线性的频率轴上变换成梅尔尺度，对在频率轴上分布不均的幅值进行对数缩放，再将其作为音频信号的特征表示；

5.3)将上一步生成的特征输入含有32个长度为8的一维滤波器的卷积层，窗口大小为8；

5.4)将上一步的输出放入池化窗口长度为4最大池化层；

5.5)将上一步的输出放入含有32个长度为8的一维滤波器的卷积层，窗口大小为8；

5.6)将上一步的输出放入池化窗口长度为4最大池化层；