[发明专利]文本多模态表示方法及装置有效

申请号：	201811230363.9	申请日：	2018-10-22
公开（公告）号：	CN109359196B	公开（公告）日：	2020-11-17
发明（设计）人：	黄苹苹;乔敏;朱勇	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06N3/04;G06N3/08
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	宋合成
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本多模态表示方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出一种文本多模态表示方法及装置，其中方法包括：获取待处理的文本，对文本进行识别，获取文本对应的文本对象集合，以及各个文本对象对应的文本向量；针对每个文本对象，获取与文本对象相关的图像集；根据图像集中各个图像对应的图像向量，确定与文本对象对应的图像向量；根据文本对象对应的文本向量以及图像向量，确定文本对象对应的多模态向量，进而确定文本对应的多模态向量，从而能够同时采用文本向量和图像向量对文本进行表示，与多模态任务匹配，且由于文本的多模态表示，使得多模态任务中的融合分类模型或者图像描述模型，通过较少的图像以及文本进行训练，就能够确保一定的准确度，降低了训练成本，提高了多模态任务的执行准确度以及执行效率。

技术领域

本发明涉及数据处理技术领域，尤其涉及一种文本多模态表示方法及装置。

背景技术

多模态任务，指的是通过文字、语音、视频、动作、环境等多种方式进行人机交互，模拟人与人之间的交互方式的任务。目前的多模态任务，例如视觉问答任务(VisualQuestion Answering，VQA)中，首先获取输入的图像以及问题文本，获取图像对应的图像向量以及问题文本对应的文本向量，将图像对应的图像向量以及问题文本对应的文本向量进行融合以及分类，确定问题文本对应的答案。又例如，看图说话任务(Image Caption，IC)中，首先获取输入的图像以及图像对应的图像向量，将图像对应的图像向量输入图像描述模型中，获取输出的第一个词语，然后将第一个词语对应的文本向量以及图像对应的图像向量输入图像描述模型中，获取第二个词语；将第一个词语对应的文本向量、第二个词语对应的文本向量以及图像对应的图像向量输入图像描述模型中，依次进行，得到图像描述语句。

上述两个多模态任务中，图像和问题文本的向量表示是单一模态的，图像只用图像向量表示，文本只用文本向量表示，与多模态任务不匹配；且由于图像和文本的单一模态表示，使得融合分类模型以及图像描述模型在训练过程中，需要大量的图像以及文本进行训练，才能够确保一定的准确度，提高了训练成本，降低了多模态任务的执行准确度以及执行效率。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种文本多模态表示方法，用于解决现有技术中多模态任务执行准确度以及执行效率差的问题。

本发明的第二个目的在于提出一种文本多模态表示装置。

本发明的第三个目的在于提出另一种文本多模态表示装置。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达上述目的，本发明第一方面实施例提出了一种文本多模态表示方法，包括：

获取待处理的文本，对所述文本进行识别，获取所述文本对应的文本对象集合，以及所述文本对象集合中各个文本对象对应的文本向量；

针对所述文本对象集合中的每个文本对象，获取与所述文本对象相关的图像集；

根据所述图像集中各个图像对应的图像向量，确定与所述文本对象对应的图像向量；

根据所述文本对象对应的文本向量以及图像向量，确定所述文本对象对应的多模态向量；