[发明专利]用户服务方法、装置、设备及计算机可读存储介质在审
申请号: | 202110442969.4 | 申请日: | 2021-04-23 |
公开(公告)号: | CN113177457A | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 韦嘉楠;关天爱;郑权;周超勇;刘玉宇 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06F16/332;G06N3/04;G10L13/02;G10L25/24 |
代理公司: | 深圳市力道知识产权代理事务所(普通合伙) 44507 | 代理人: | 张传义 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户服务 方法 装置 设备 计算机 可读 存储 介质 | ||
1.一种用户服务方法,其特征在于,包括:
响应于用户的询问信息确定应答文本;
基于训练好的语音合成模型,对所述应答文本进行语音合成,得到所述应答文本的音频序列;
基于训练好的脸部特征图预测模型,根据所述音频序列预测所述音频序列中各时刻对应的脸部特征图;
基于脸部处理模型,根据所述各时刻的脸部特征图生成各时刻对应的脸部图像;
将所述各时刻的脸部图像进行合成得到视频流,并将所述音频序列插入所述视频流,生成并输出用于应答所述询问信息的客服影像。
2.如权利要求1所述的用户服务方法,其特征在于,所述语音合成模型包括声谱预测网络和声码器,所述根据所述应答文本得到音频序列包括:
基于所述声谱预测网络,对所述应答文本进行特征预测得到所述应答文本的梅尔频谱;
基于所述声码器,通过扩大卷积对梅尔频谱进行处理,得到所述音频序列。
3.如权利要求1所述的用户服务方法,其特征在于,所述方法还包括:
获取第一训练数据,所述第一训练数据包括多个预设应答文本,以及根据各所述预设应答文本录制的音频样本;
根据所述第一训练数据对所述语音合成模型进行训练,得到训练好的语音合成模型。
4.如权利要求1-3中任一项所述的用户服务方法,其特征在于,所述方法还包括:
获取第二训练数据,所述第二训练数据包括多个视频样本;
根据所述视频样本中的音频和脸部特征图对所述脸部特征图预测模型进行训练,得到训练好的脸部特征图预测模型。
5.如权利要求4中任一项所述的用户服务方法,其特征在于,所述根据所述视频样本中的音频和脸部特征图对所述脸部特征图预测模型进行训练,包括:
从所述视频样本中提取音频和各时刻的脸部特征图;
基于所述脸部特征图预测模型,根据所述视频样本的音频预测各时刻的脸部特征图;
根据从所述视频样本中提取的脸部特征图和根据所述视频样本预测得到的脸部特征图进行对比,得到脸部特征图的脸部特征误差值;
根据所述脸部特征误差值对所述脸部特征图预测模型进行参数调整,得到训练好的脸部特征图预测模型。
6.如权利要求5中任一项所述的用户服务方法,其特征在于,所述方法还包括:
对从所述第二训练数据的视频样本中提取的脸部特征图进行仿射变换和归一化处理,得到标准化脸部特征图;
所述根据提取的脸部特征图和根据所述视频样本预测得到的脸部特征图进行对比,得到脸部特征图的脸部特征误差值包括:
根据标准化脸部特征图和根据所述视频样本预测得到的脸部特征图进行对比,得到脸部特征图的脸部特征误差值。
7.如权利要求1-3中任一项所述的用户服务方法,其特征在于,所述脸部处理模型包括生成器和判别器,所述基于脸部处理模型,根据所述各时刻的脸部特征图生成各时刻对应的脸部图像,包括:
基于所述生成器,对脸部特征图进行多次降采样处理得到采样脸部特征图,以及对采样脸部特征图进行反卷积和拼接得到脸部图像,其中,在每次降采样处理之后都进行标准化处理和通过线性整流函数进行线性处理;
基于所述判别器,将所述生成网络输出的脸部图像分割成若干块,以及对每一块图像进行真假判断,并根据每一块图像的真假判定结果确定脸部图像的真假;
若确定脸部图像为真实,输出所述脸部图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110442969.4/1.html,转载请声明来源钻瓜专利网。