[发明专利]基于多模态信息融合的异构数据特征提取方法在审

申请号：	202310030248.1	申请日：	2023-01-10
公开（公告）号：	CN115935969A	公开（公告）日：	2023-04-07
发明（设计）人：	宋建锋;陈慧;苗启广;谢琨;刘如意;权义宁;刘向增	申请（专利权）人：	西安电子科技大学
主分类号：	G06F40/279	分类号：	G06F40/279;G06F40/216;G06F40/30;G06N3/08;G06N3/0464
代理公司：	陕西电子工业专利中心 61205	代理人：	田文英;王品华
地址：	710071***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于多模态信息融合数据特征提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多模态信息融合的异构特征提取方法，其特征在于，采用文本编码器和图像编码器组成的双流结构分别提取文本数据和图像数据的特征，通过注意力机制对异构特征进行特征融合；该异构特征提取方法的具体步骤包括如下：

步骤1，生成训练集：

步骤1.1，收集一门科目考试中一个学期内至少100名学生的所有考试答题记录；将每个学生每次该门科目考试的答题试卷的答案整理为(q-id,kc-id,ans)格式，作为该门科目中一道试题的一个样本数据，采用相同的方法，得到该门科目考试试卷的所有学生的每道试题的答题记录；其中，q-id表示第q个学生回答的第id道试题，kc-id表示第id道试题中所包含的知识点kc，ans为第id道试题的标签，其取值为0或1，ans＝0表示该道试题的回答正确，ans＝1表示该道试题的回答错误；

步骤1.2，采用与步骤1.1相同的方式，从每门科目考试的30000条答题记录中随机选取20000个样本数据，组成学生答题记录训练集；

步骤2，生成文本编码器和图像编码器的预训练集：

步骤2.1利用爬虫技术，爬取与步骤1.1中相同科目的试题总共40000道，并获取每道试题的试题文本、试题附图、试题知识点、试题分数信息；去除含有相同题目文本和不含题目例图的试题后，将剩余的32000道不重复且含有文本、图像两种模态数据的试题组成学生考试试题库；

步骤2.2,将试题库中的每道试题的题目文本整理成格式text，作为该道试题的一个文本样本数据；从试题库中随机选取10000个文本样本数据组成文本编码器的文本预训练集；

步骤2.3,将试题库中的每道试题的题目附图整理成格式img，作为该道试题的一个图像样本数据；从试题库中随机选取10000个图像样本数据组成图像编码器的图像预训练集；

步骤3，设置编码器：

步骤3.1，采用Bert预训练模型作为文本编码器，将该文本编码器的字嵌入向量维度设置为768，输入文本的最大长度设置为80；

步骤3.2，采用Transformer模型作为图像编码器，将该图像编码器的隐状态维度设置为512，多头注意力模块的注意力头数设置为6；

步骤4，预训练编码器：

步骤4.1，将文本预训练集输入到文本编码器中，随机选取输入文本中15％的词语使用[mask]标记进行替换，输出[mask]标记的预测词，利用交叉熵损失函数，计算文本编码器输出的预测词与真实词之间的损失值，通过梯度下降法，迭代更新文本编码器中的所有参数，直至损失值不再变化为止，得到预训练好的文本编码器；

步骤4.2，将图像预训练集输入到图像编码器中，输出能够表征图像特征的图像特征向量，使用主成分分析法，将该图像特征向量还原成图像；利用交叉熵损失函数，计算真实图像与还原图像之间的损失值，通过梯度下降法，迭代更新图像编码器的所有参数，直至损失值不再变化为止，得到预训练好的图像编码器；

步骤5，训练学生知识状态生成网络：

步骤5.1，将循环神经网络作为学生知识状态生成网络；

步骤5.2，将学生答题记录训练集输入到学生知识状态生成网络中，输出训练中每个样本的预测标签，利用交叉熵损失函数，计算训练样本的预测标签与真实标签之间的损失值，通过梯度下降法，迭代更新学生知识状态生成网络中的所有参数，直至损失函数收敛为止，得到训练好的学生知识状态生成网络；

步骤6，生成学生个性题库：

将步骤2.1中学生考试试题库中的所有试题，输入到训练好的学生知识状态生成网络中，将网络预测标签为0的输入样本对应的试题添加到学生个性题库；

步骤7，提取含有异构数据的多模态试题数据的特征：

步骤7.1，将学生个性题库中所有试题的题目文本输入到预训练好的文本编码器中，输出每道试题的题目文本向量；

步骤7.2，将学生个性题库中的所有试题的题目附图输入到预训练好的图像编码器中，输出每道试题的题目附图向量；

步骤8，融合异构特征：

将每道试题题目文本向量与题目附图向量均输入到注意力机制中进行特征融合，输出融合了文本特征和图像特征的多模态表征向量；

步骤9，生成学生个性化试卷：