[发明专利]一种基于多模态技术的拍照命名方法与系统在审
申请号: | 202010616803.5 | 申请日: | 2020-06-30 |
公开(公告)号: | CN111797265A | 公开(公告)日: | 2020-10-20 |
发明(设计)人: | 沈之锐;张美珍 | 申请(专利权)人: | 韶关市启之信息技术有限公司 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06F16/587;G06F40/289;G06F40/211;G06K9/62;G06N3/04;G06N3/08;G10L15/26 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 512026 广东省韶关市武江区百旺大道42号*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多模态 技术 拍照 命名 方法 系统 | ||
1.一种基于多模态技术的拍照命名方法,其特征在于,所述方法包括:
基于深度学习的Image captioning技术实现端到端文本生成,将照片转化为描述文本;通过照片中的图像,分析图像中人物或事物的情感,并自动生成情感描述;通过地理位置服务,获取照相时的地理位置和时间;主动获取语音输入,并实现语音到文本的转换,通过结巴分词工具,获得人物或者事物名称;将上述四种模态的数据,处理成文本,通过依存句法分析,进行实体替换,最后合并起来,形成照片的标题;记录所述标题中的人物或事物以及其对应的图像语音信息,在下次拍照时复用。
2.根据权利要求1所述的方法,其中,所述基于深度学习的Image captioning技术实现端到端文本生成,将照片转化为描述文本 ,主要包括:
将图像中检测到的目标映射得到相应的向量,再将向量映射到文字词序列;将所述词序列转化为正常语序的句子,基于seq2seq的机器翻译框架,将原序列的词对的位置按语序重新排列,生成符合语法规则的文本。
3.根据权利要求1所述的方法,其中,所述通过照片中的图像,分析图像中人物或事物的情感,并自动生成情感描述 ,主要包括:
获取所述描述性文本,使用结巴分词工具进行分词,进行词向量化,输入到预先训练好的短文本情感分析神经网络模型中,模型经过对句子的词语的时间序列分析,能输出句子属于不同情感倾向的概率,取概率最大的情感倾向作为描述文本的情感。
采用基于局部结构特征提取Gabor算法提取人脸的特征信息;根据所述提取的人脸的特征信息,将所述特征信息通过预先训练好的表情分类模型以识别人脸的表情分类,获取人脸表情对应的情感。
将所述描述文本的情感和人脸表情对应的情感进行融合,包括:对所述描述文本的情感词进行情感强度值计算,获得文本情感强度值;通过在表情知识库中匹配人脸表情对应的情感强度值,获得人脸表情情感强度;将文本情感强度值和人脸表情情感强度进行数值转换成分数,按分数进行相加,得到总体情感极性,作为照片的最终情感描述。
4.根据权利要求1所述的方法,其中,所述通过地理位置服务,获取照相时的地理位置和时间 ,主要包括:
获取用户设备的GPS信号读取权限,系统通过创建位置服务的LocationManager,调用方法得到地理位置,设置监听,监听位置变化信息,从而获取用户实时位置;并通过网络获取当前时间,做为照片拍摄的时间。
5.根据权利要求1所述的方法,其中,所述主动获取语音输入,并实现语音到文本的转换,通过结巴分词工具,获得人物或者事物名称 ,主要包括:
对获取的语音转换成的描述文本进行数据预处理,采用结巴分词工具进行分词,将分词后的结果输入到预先训练好的命名实体识别模型,进行命名实体识别,通过命名实体识别出来的人名或物名。
6.根据权利要求1所述的方法,其中,所述将上述四种模态的数据,处理成文本,通过依存句法分析,进行实体替换,最后合并起来,形成照片的标题 ,主要包括:
通过角色语义标注技术,分析出主谓宾、实事与受事属性,所述角色语义标注技术采用哈工大的LTP工具进行句法分析和角色语义标注处理;通过句法分析工具获得SBV主语 、VOB宾语;在角色语义标注中, 获得LOC 地点标签,TMP 时间标签;通过替换上述识别出的时间、地点、人物、事情,获得完整的描述性标题;所述标题描述采用‘时间地点人物事情’四要素进行描写。
7.根据权利要求1所述的方法,其中,所述记录所述标题中的人物或事物以及其对应的图像语音信息,在下次拍照时复用,主要包括:
将以前照相过程中,获取的人名、地名、存储起来,当拍照无法获取人名或地名时,从数据库查询照相目标对象所对应的人名或者地名,作为所述目标对象的人名地名,自动生成照片标题。
8.一种基于多模态技术的拍照命名系统,其特征在于,所述系统包括:
照片图片的文本生成模块,用于通过深度学习技术根据图像生成文本;
语音名称实体获取模块,用于通过主动的语音获取名称信息,融合到标题中;
情感信息获取模块,用于分析生成文本的情感信息和图像人物表情情感信息;
多模态数据融合模块,用于将时间地点人物事情多个因素融合在一起,生成标题;
复用模块,用于对有用信息进行复用,提高信息利用率和计算效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于韶关市启之信息技术有限公司,未经韶关市启之信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010616803.5/1.html,转载请声明来源钻瓜专利网。