[发明专利]多媒体信息的处理方法、装置、存储介质和处理器在审
| 申请号: | 202011204579.5 | 申请日: | 2020-11-02 |
| 公开(公告)号: | CN114443938A | 公开(公告)日: | 2022-05-06 |
| 发明(设计)人: | 张严浩;谢晨伟;熊雄;李党伟;郑赟;潘攀;徐盈辉 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06K9/62;G06N3/04;G06N3/08;G06V10/764;G06V10/82;G06V10/80 |
| 代理公司: | 北京博浩百睿知识产权代理有限责任公司 11134 | 代理人: | 谢湘宁;张文华 |
| 地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 多媒体信息 处理 方法 装置 存储 介质 处理器 | ||
本发明公开了一种多媒体信息的处理方法、装置、存储介质和处理器。其中,该方法包括:播放视频,获取视频中的多媒体信息,其中,多媒体信息包括:图像信息和音频信息;从多媒体信息中识别出目标对象在不同模态下的信息,其中,目标对象为视频中推荐的产品;将目标对象在不同模态下的信息进行多模态融合,生成用于表征目标对象的推荐内容。本发明解决了识别视频中关键的推荐内容效率低的技术问题。
技术领域
本发明涉及信息处理领域,具体而言,涉及一种多媒体信息的处理方法、装置、存储介质和处理器。
背景技术
目前,随着电商平台中一些交易平台直播带货的兴起,视频技术在现代社会中的应用也越来越广泛。而视频作为一种新兴的交互媒介,其不仅仅包含丰富的图像信息,文字和音频等多模态信息也会在其中有所呈现。通常可以充分利用多模态的信息能获得超过单一图像更优的性能,但是由于多模态信息比较复杂,无法对多模态的信息进行有效地融合,从而导致识别视频中关键的推荐内容效率低的技术问题。
针对上述识别视频中关键的推荐内容效率低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种多媒体信息的处理方法、装置、存储介质和处理器,以至少解决识别视频中关键的推荐内容效率低的技术问题。
根据本发明实施例的一个方面,提供了一种多媒体信息的处理方法,包括:播放视频,获取视频中的多媒体信息,其中,多媒体信息包括:图像信息和音频信息;从多媒体信息中识别出目标对象在不同模态下的信息,其中,目标对象为视频中推荐的产品;将目标对象在不同模态下的信息进行多模态融合,生成用于表征目标对象的推荐内容。
根据本发明实施例的另一个方面,还提供了一种多媒体信息的处理方法,包括:在操作界面的录入界面中录入播放的视频中的多媒体信息,其中,多媒体信息包括:图像信息和音频信息;在操作界面内感应到推荐内容生成指令,从多媒体信息中识别出目标对象在不同模态下的信息,其中,目标对象为视频中推荐的产品;在操作界面上显示用于表征目标对象的推荐内容,其中,目标对象的推荐内容通过将目标对象在不同模态下的信息进行多模态融合而生成。
根据本发明实施例的另一个方面,还提供了一种多媒体信息的处理方法,包括:在操作界面中显示播放的视频,并显示视频中的多媒体信息,其中,多媒体信息包括:图像信息和音频信息;在操作界面内感应到推荐内容生成指令;响应内容生成指令,在操作界面上显示目标对象在不同模态下的信息,其中,目标对象为视频中推荐的产品,目标对象在不同模态下的信息为从多媒体信息中识别出;在操作界面上显示用于表征目标对象的推荐内容,其中,目标对象的推荐内容通过将目标对象在不同模态下的信息进行多模态融合而生成。
根据本发明实施例的另一个方面,还提供了一种多媒体信息的处理方法,包括:前端客户端上传播放的视频中的多媒体信息,其中,多媒体信息包括:图像信息和音频信息;前端客户端将多媒体信息传输到后台服务器;前端客户端接收后台服务器返回从多媒体信息中识别出的目标对象在不同模态下的信息,其中,目标对象为视频中推荐的产品;前端客户端将目标对象在不同模态下的信息进行多模态融合,生成用于表征目标对象的推荐内容。
根据本发明实施例的另一个方面,还提供了一种多媒体信息的处理方法,包括:接收推荐内容生成请求;获取推荐内容生成请求中视频的多媒体信息,其中,多媒体信息包括:图像信息和音频信息;从多媒体信息中识别出目标对象在不同模态下的信息,其中,目标对象为视频中推荐的产品;将目标对象在不同模态下的信息进行多模态融合,生成用于表征目标对象的推荐内容;输出目标对象的推荐内容。
根据本发明实施例的另一个方面,还提供了一种多媒体信息的处理装置,包括:播放单元,用于播放视频,获取视频中的多媒体信息,其中,多媒体信息包括:图像信息和音频信息;识别单元,用于从多媒体信息中识别出目标对象在不同模态下的信息,其中,目标对象为视频中推荐的产品;融合单元,用于将目标对象在不同模态下的信息进行多模态融合,生成用于表征目标对象的推荐内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011204579.5/2.html,转载请声明来源钻瓜专利网。





