[发明专利]一种图像问答推理方法、系统及装置在审

申请号：	201711260799.8	申请日：	2017-12-04
公开（公告）号：	CN108154235A	公开（公告）日：	2018-06-12
发明（设计）人：	黄劲;朱德明	申请（专利权）人：	盈盛资讯科技有限公司
主分类号：	G06N5/04	分类号：	G06N5/04;G06K9/62;G06N3/04
代理公司：	广州嘉权专利商标事务所有限公司 44205	代理人：	谭英强
地址：	中国香港新界沙田香港科学园科***	国省代码：	中国香港;81
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	推理图像特征向量系统及装置问题特征图像向量运算结果生成模块卷积神经网络视觉处理模块语言处理模块自然语言处理图像转换推理结果问题转换先验知识存储器多类型处理器准确率转换应用
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种图像问答推理方法、系统及装置，方法包括：将输入的问题转换为问题特征向量，并根据卷积神经网络将输入的图像转换为图像特征向量；采用batch normalization运算方法，分别对转换得到的问题特征向量和图像特征向量进行推理；根据推理结果，得到问答结果。系统包括语言处理模块、视觉处理模块、多步推理模快和结果生成模块。装置包括存储器和处理器。本发明无需先验知识就能得到问答结果，提高了图像问答推理的准确率；另外，本发明通过采用batch normalization运算方法，能够对多层次多类型的问题进行推理，提高了泛化能力。本发明可广泛应用于自然语言处理领域。

技术领域

本发明涉及自然语言处理领域，尤其是一种图像问答推理方法、系统及装置。

背景技术

基于视觉的问答推理是人工智能领域中一个重要的组成部分。使用深度神经网络的图像处理和自然语言处理已经在一些相对困难的任务中取得了巨大的突破，如物体识别任务和机器翻译任务。这些进展又反过来促进了那些同时涉及视觉和自然语言处理的任务。

目前，针对图像问答推理的训练数据集逐步开源，尤其是涉及需要多步骤、高层次思维处理的任务数据集。传统的深度学习模型很难对这些结构化的、多步骤的推理进行学习训练，且传统的深度学习方法更倾向于学习数据的表面特征(即过拟合)而非真正的推理，泛化能力较弱，另外，这种方法需要大量的先验知识作为训练的前提，而且最终得到的拟合模型的准确率较低。因此，需要建立一种新的深度学习架构来实现显式的推理或关系关联。

发明内容

为解决上述技术问题，本发明的目的在于：提供一种无需先验知识就能直接进行学习推理的，准确率高且泛化能力强的图像问答推理方法、系统及装置。

本发明所采取的第一技术方案是：

一种图像问答推理方法，包括以下步骤：

将输入的问题转换为问题特征向量，并根据卷积神经网络将输入的图像转换为图像特征向量；

采用batch normalization运算方法，分别对转换得到的问题特征向量和图像特征向量进行推理；

根据推理结果，得到问答结果。

进一步，所述将输入的问题转换为问题特征向量这一步骤，包括以下步骤：

采用word2vec算法，将问题中的中文词语转换为词向量；

根据循环神经网络对转换的词向量进行处理，得到问题特征向量。

进一步，所述采用batch normalization运算方法，对转换得到的问题特征向量进行推理这一步骤，具体为：

对转换得到的问题特征向量进行参数计算，得到对应BN层的参数。