[发明专利]一种基于多模态技术的拍照命名方法与系统在审
申请号: | 202010616803.5 | 申请日: | 2020-06-30 |
公开(公告)号: | CN111797265A | 公开(公告)日: | 2020-10-20 |
发明(设计)人: | 沈之锐;张美珍 | 申请(专利权)人: | 韶关市启之信息技术有限公司 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06F16/587;G06F40/289;G06F40/211;G06K9/62;G06N3/04;G06N3/08;G10L15/26 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 512026 广东省韶关市武江区百旺大道42号*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多模态 技术 拍照 命名 方法 系统 | ||
于深度学习的Image captioning技术实现端到端文本生成,将照片转化为描述文本;通过照片中的图像,分析图像中人物或事物的情感,并自动生成情感描述;通过地理位置服务,获取照相时的地理位置和时间;主动获取语音输入,并实现语音到文本的转换,通过结巴分词工具,获得人物或者事物名称;将上述四种模态的数据,处理成文本,通过依存句法分析,进行实体替换,最后合并起来,形成照片的标题;记录所述标题中的人物或事物以及其对应的图像语音信息,在下次拍照时复用。本发明引入多模态输入以使系统生成的文本包含更多对拍照情景的准确描述,而为图片自动生成的描述文本能是用户更方便快速的搜索到想要的图片。
技术领域
本发明涉及计算机应用技术领域,尤其涉及一种基于多模态技术的拍照命名方法与系统。
背景技术
目前大部分手机拍摄的照片,系统都会根据拍摄时间自动进行命名。当用户需要查找特定内容的照片时,如果不记得确切拍摄时间则必须逐张图片打开去查看,操作起来十分不便。本专利希望发明一个系统,在自动命名的过程中,引入图像描述生成技术imagecaption。通过对图片内容的分析自动生成和图片内容相关的命名,以便于用户对照片的搜索。
发明专利CN201810644268.7一种图片标题生成方法、装置和计算机可读存储介质, 结合视觉检测器和语言建模的方法实现对图片标题的自动生成。该方法首先利用多实例学习,训练得到一个视觉检测器,该检测器不但可以从图片中提取可能的单词,而且可以把单词对应到具体的图片局部区域。在提取出可能的单词之后,基于神经网络中流行的编码器-解码器框架进行语言模型建模。其中编码器一般为卷积神经网络(ConvolutionalNeural Network,CNN),可选取网络中的全连接层或卷积层的输出作为编码之后的图片特征,解码器一般为循环神经网络(Recurrent Neural Network,RNN),用于图片标题序列的生成。
现有的方案能生成和图片内容相关的文本序列,但在生成文本的过程中,仅仅对图片像素数据信息进行建模,而忽略了拍照情景中例如具体地理位置、用户当时心情等多模态上下文信息,因而无法生成有意义,有情感的标题。本发明结合拍照时,拍照者的语音输入,以及地理位置,能够更好的将固定的景物,与拍照心情和人物固定名字结合,使命名更加有趣。名称更加具有当前情境的照片价值。
发明内容
本发明提供了一种基于多模态技术的拍照命名方法与系统用于在拍摄照片后,自动为照片命名,使用户看名称就能知道时间地点人物事情,无需预览就可以迅速获取照片信息。
本发明提供了一种基于多模态技术的拍照命名方法与系统,主要包括以下步骤:
基于深度学习的Image captioning技术实现端到端文本生成,将照片转化为描述文本;通过照片中的图像,分析图像中人物或事物的情感,并自动生成情感描述;通过地理位置服务,获取照相时的地理位置和时间;主动获取语音输入,并实现语音到文本的转换,通过结巴分词工具,获得人物或者事物名称;将上述四种模态的数据,处理成文本,通过依存句法分析,进行实体替换,最后合并起来,形成照片的标题;记录所述标题中的人物或事物以及其对应的图像语音信息,在下次拍照时复用。
进一步可选地,如上所述的方法中,所述基于深度学习的Image captioning技术实现端到端文本生成,将照片转化为描述文本 ,主要包括:
将图像中检测到的目标映射得到相应的向量,再将向量映射到文字词序列;将所述词序列转化为正常语序的句子,基于seq2seq的机器翻译框架,将原序列的词对的位置按语序重新排列,生成符合语法规则的文本。
进一步可选地,如上所述的方法中,所述通过照片中的图像,分析图像中人物或事物的情感,并自动生成情感描述 ,主要包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于韶关市启之信息技术有限公司,未经韶关市启之信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010616803.5/2.html,转载请声明来源钻瓜专利网。