[发明专利]一种多模态数据处理方法及语言智能系统在审
| 申请号: | 202310428468.X | 申请日: | 2023-04-20 |
| 公开(公告)号: | CN116484314A | 公开(公告)日: | 2023-07-25 |
| 发明(设计)人: | 铉静;吴琼;吴珮玄;欧思言;雷焮尧 | 申请(专利权)人: | 重庆工商大学;偲塔(重庆)科技发展有限责任公司 |
| 主分类号: | G06F18/25 | 分类号: | G06F18/25;G06F18/214;G06F40/56;G06F40/12;G06F40/289;G06F40/211;G06N3/04;G06V10/40;G06V10/82;G10L25/24;G10L25/30;G10L15/06;G10L15/16 |
| 代理公司: | 北京京标立权专利代理事务所(普通合伙) 16143 | 代理人: | 吴啸寰 |
| 地址: | 400067 *** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 多模态 数据处理 方法 语言 智能 系统 | ||
本发明提供一种多模态数据处理方法及语言智能系统,多模态数据处理方法,包括以下步骤:获取多模态数据信息;提取所述多模态数据信息的特征表示,分别获得文本模态数据信息的特征表示、语音模态数据信息的特征表示和图像模态数据信息的特征表示;将所述文本模态数据信息的特征表示、所述语音模态数据信息的特征表示和所述图像模态数据信息的特征表示输入到多模态融合模型中进行训练,获得训练好的所述多模态融合模型的特征表示;将获得训练好的所述多模态融合模型的特征表示输入至自然语言生成模型,输出用于描所述多模态数据信息的自然语言。本发明能够提生多模态融合模型的精确度和准确度,以提升输出的自然语言的精确度和准确度。
技术领域
本发明涉及数据处理技术领域,具体涉及一种多模态数据处理方法和一种多模态数据处理的语言智能系统。
背景技术
模态是指事物发生或存在的方式,多模态是指两个或者两个以上模态各种形式的组合。进一步解释模态和多模态的话,模态是指某种类型的信息,或者是该信息的表示;当一个研究或者数据集中包含多个模态时,它是具有多模态属性的研究或者数据集。人们听到的声音、看到的实物、闻到的味道都是一种模态,人们生活在一个多种模态相互交融的环境中。为了使人工智能更好地理解世界,必须赋予人工智能学习、理解和推理多模态信息的能力。多模态机器学习是指建立模型使机器从多模态中学习各个模态的信息,并且实现各个模态信息的交流和转换。现阶段多模态信息融合下的自然语言处理,最终生成的语句质量较差,对自然语言理解的精确度和准确度低。
发明内容
本发明为解决上述技术问题,提供了一种多模态数据处理方法及语言智能系统,能够提生多模态融合模型的精确度和准确度,以提升输出的自然语言的精确度和准确度。
本发明采用的技术方案如下:
一种多模态数据处理方法,包括以下步骤:获取多模态数据信息;提取所述多模态数据信息的特征表示,分别获得文本模态数据信息的特征表示、语音模态数据信息的特征表示和图像模态数据信息的特征表示;将所述文本模态数据信息的特征表示、所述语音模态数据信息的特征表示和所述图像模态数据信息的特征表示输入到多模态融合模型中进行训练,获得训练好的所述多模态融合模型的特征表示;将获得训练好的所述多模态融合模型的特征表示输入至自然语言生成模型,输出用于描所述多模态数据信息的自然语言。
获取所述文本模态数据信息、所述语音模态数据信息和所述图像模态数据信息中的至少两种模态数据信息。
所述文本模态数据信息的特征提取包括以下步骤:使用预训练语言模型BERT对文本模态数据信息进行预处理;所述预训练语言模型BERT通过多层Transformer结构对预处理后的所述文本模态数据信息进行向量构造;所述预训练语言模型BERT将生成的向量构造输入到HAN网络模型中;所述HAN网络模型依次通过词级编码器、词级的Attention层、句级编码器和句级的Attention层对进行向量构造后的所述文本模态数据信息进行分析,得到所述文本模态数据信息的特征表示。
所述语音模态数据信息的特征提取包括以下步骤:对获取的所述语音模态数据信息进行预处理;提取所述语音模态数据信息的梅尔频谱倒谱系数MFCC特征,所述梅尔频谱倒谱系数MFCC特征即所述语音模态数据信息的特征表示。
所述图像模态数据信息的特征提取包括以下步骤:使用Pytorch的transforms库统一图像尺寸并进行中心裁剪,计算所有图像的均值和方差,对图像进行归一化处理;将归一化处理后的图像输入到ResNet152神经网络模型中对图像进行特征提取,得到所述图像模态数据信息的特征表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆工商大学;偲塔(重庆)科技发展有限责任公司,未经重庆工商大学;偲塔(重庆)科技发展有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310428468.X/2.html,转载请声明来源钻瓜专利网。





