[发明专利]一种图像问答推理方法、系统及装置在审
申请号: | 201711260799.8 | 申请日: | 2017-12-04 |
公开(公告)号: | CN108154235A | 公开(公告)日: | 2018-06-12 |
发明(设计)人: | 黄劲;朱德明 | 申请(专利权)人: | 盈盛资讯科技有限公司 |
主分类号: | G06N5/04 | 分类号: | G06N5/04;G06K9/62;G06N3/04 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 谭英强 |
地址: | 中国香港新界沙田香港科学园科*** | 国省代码: | 中国香港;81 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 推理 图像特征向量 系统及装置 问题特征 图像 向量 运算 结果生成模块 卷积神经网络 视觉处理模块 语言处理模块 自然语言处理 图像转换 推理结果 问题转换 先验知识 存储器 多类型 处理器 准确率 转换 应用 | ||
本发明公开了一种图像问答推理方法、系统及装置,方法包括:将输入的问题转换为问题特征向量,并根据卷积神经网络将输入的图像转换为图像特征向量;采用batch normalization运算方法,分别对转换得到的问题特征向量和图像特征向量进行推理;根据推理结果,得到问答结果。系统包括语言处理模块、视觉处理模块、多步推理模快和结果生成模块。装置包括存储器和处理器。本发明无需先验知识就能得到问答结果,提高了图像问答推理的准确率;另外,本发明通过采用batch normalization运算方法,能够对多层次多类型的问题进行推理,提高了泛化能力。本发明可广泛应用于自然语言处理领域。
技术领域
本发明涉及自然语言处理领域,尤其是一种图像问答推理方法、系统及装置。
背景技术
基于视觉的问答推理是人工智能领域中一个重要的组成部分。使用深度神经网络的图像处理和自然语言处理已经在一些相对困难的任务中取得了巨大的突破,如物体识别任务和机器翻译任务。这些进展又反过来促进了那些同时涉及视觉和自然语言处理的任务。
目前,针对图像问答推理的训练数据集逐步开源,尤其是涉及需要多步骤、高层次思维处理的任务数据集。传统的深度学习模型很难对这些结构化的、多步骤的推理进行学习训练,且传统的深度学习方法更倾向于学习数据的表面特征(即过拟合)而非真正的推理,泛化能力较弱,另外,这种方法需要大量的先验知识作为训练的前提,而且最终得到的拟合模型的准确率较低。因此,需要建立一种新的深度学习架构来实现显式的推理或关系关联。
发明内容
为解决上述技术问题,本发明的目的在于:提供一种无需先验知识就能直接进行学习推理的,准确率高且泛化能力强的图像问答推理方法、系统及装置。
本发明所采取的第一技术方案是:
一种图像问答推理方法,包括以下步骤:
将输入的问题转换为问题特征向量,并根据卷积神经网络将输入的图像转换为图像特征向量;
采用batch normalization运算方法,分别对转换得到的问题特征向量和图像特征向量进行推理;
根据推理结果,得到问答结果。
进一步,所述将输入的问题转换为问题特征向量这一步骤,包括以下步骤:
采用word2vec算法,将问题中的中文词语转换为词向量;
根据循环神经网络对转换的词向量进行处理,得到问题特征向量。
进一步,所述采用batch normalization运算方法,对转换得到的问题特征向量进行推理这一步骤,具体为:
对转换得到的问题特征向量进行参数计算,得到对应BN层的参数。
进一步,所述根据卷积神经网络将输入的图像转换为图像特征向量这一步骤,包括以下步骤:
通过ImageNet数据库对输入的图像进行预训练;
根据残差神经网络的卷积计算方法,对输入的图像进行特征向量提取。
进一步,所述采用batch normalization运算方法,对转换得到的图像特征向量进行推理这一步骤,包括以下步骤:
根据特征提取得到的图像特征向量,对BN层进行参数定义;
根据参数定义后的BN层,构造多步推理模型;
根据构造的多步推理模型,对特征提取得到的特征向量进行训练处理。
进一步,所述根据推理结果,得到问答结果这一步骤,包括以下步骤:
结合卷积层、池化层和全连接层构造分类器;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盈盛资讯科技有限公司,未经盈盛资讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711260799.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于模板的知识学习方法和系统
- 下一篇:用于评估群组层面的认知状态的技术