[发明专利]文本生成方法、装置、计算机设备及介质在审
申请号: | 202210612469.5 | 申请日: | 2022-05-31 |
公开(公告)号: | CN114996514A | 公开(公告)日: | 2022-09-02 |
发明(设计)人: | 林和政;吴翔宇 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06F16/783 | 分类号: | G06F16/783;G06V20/40;G06V20/62;G06V10/82;G06N3/04 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 李加欣 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 生成 方法 装置 计算机 设备 介质 | ||
1.一种文本生成方法,其特征在于,所述方法包括:
获取目标视频的图像信息与文本信息;
将所述图像信息与所述文本信息输入视频特征提取模型,通过所述视频特征提取模型的图像特征提取子模型对所述图像信息进行特征提取,得到所述目标视频的图像特征,通过所述视频特征提取模型的文本特征提取子模型对所述文本信息进行特征提取,得到所述目标视频的文本特征;
通过所述视频特征提取模型的文本生成子模型所包括的自注意力层,对所述图像特征与所述文本特征进行处理,输出自注意力分值达到文本生成条件的多个字符,基于所述多个字符生成所述目标视频的内容描述文本。
2.根据权利要求1所述的文本生成方法,其特征在于,所述内容描述文本包括内容类目描述文本、内容形式描述文本、内容主题描述文本以及内容详情描述文本中的至少一类。
3.根据权利要求1所述的文本生成方法,其特征在于,所述内容描述文本包括多个类型的内容描述文本;
所述通过所述视频特征提取模型的文本生成子模型所包括的自注意力层,对所述图像特征与所述文本特征进行处理,输出自注意力分值达到文本生成条件的多个字符,基于所述多个字符生成所述目标视频的内容描述文本之前,所述方法还包括:
对所述图像特征与所述文本特征进行拼接,得到拼接特征;
在所述拼接特征上,添加各个类型的类型标识;
所述通过所述视频特征提取模型的文本生成子模型所包括的自注意力层,对所述图像特征与所述文本特征进行处理,输出自注意力分值达到文本生成条件的多个字符,基于所述多个字符生成所述目标视频的内容描述文本包括:
将添加所述类型标识后的拼接特征输入所述文本生成子模型,通过所述文本生成子模型所包括的自注意力层,分别基于各个类型标识对应的处理机制,对所述拼接特征进行处理,输出所述自注意力分值达到所述文本生成条件的多个字符,基于所述多个字符生成所述目标视频的多个类型的内容描述文本。
4.根据权利要求1所述的文本生成方法,其特征在于,所述视频特征提取模型的训练过程包括:
在模型训练的第i次迭代过程中,将样本视频的图像信息与文本信息输入第i-1次迭代过程所确定的视频特征提取模型,得到第i次迭代过程的文本训练结果,所述i为大于1的正整数;
基于所述第i次迭代过程的文本训练结果与所述样本视频的描述文本标签,确定所述第i次迭代过程的模型损失值;
基于所述第i次迭代过程的模型损失值,对所述第i-1次迭代过程所确定的视频特征提取模型的模型参数进行调整,基于调整后的所述模型参数进行第i+1次迭代过程,重复上述训练的迭代过程,直至训练满足目标条件。
5.根据权利要求4所述的文本生成方法,其特征在于,所述内容描述文本包括多个类型的内容描述文本;
所述基于所述第i次迭代过程的文本训练结果与所述样本视频的描述文本标签,确定所述第i次迭代过程的模型损失值包括:
对于任一类型,基于所述第i次迭代过程在所述类型上的文本训练结果与所述样本视频在所述类型上的描述文本标签,确定所述第i次迭代过程在所述类型上的损失值;
基于所述第i次迭代过程在所述多个类型上的损失值以及所述视频特征提取网络在所述多个类型上的权重系数,进行加权求和,得到所述第i次迭代过程的模型损失值。
6.根据权利要求5所述的文本生成方法,其特征在于,所述基于所述第i次迭代过程在所述多个类型上的损失值以及所述视频特征提取网络在所述多个类型上的权重系数,进行加权求和,得到所述第i次迭代过程的模型损失值之前,所述方法还包括:
对于任一类型,基于所述第i次迭代过程在所述类型上的正确文本数量以及总文本数量,确定所述第i次迭代过程在所述类型上的正确比例,所述正确比例表示在所述第i次迭代过程中正确文本数量占总文本数量的比例;
基于所述第i次迭代过程在所述类型上的正确比例,确定所述视频特征提取网络在所述类型上的权重系数,其中,所述正确比例与所述权重系数成负相关。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210612469.5/1.html,转载请声明来源钻瓜专利网。