[发明专利]基于AI算法实现多模态控制数字人交互方法及装置在审
申请号: | 202110207667.9 | 申请日: | 2021-02-25 |
公开(公告)号: | CN112965593A | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 邓江 | 申请(专利权)人: | 浙江百应科技有限公司 |
主分类号: | G06F3/01 | 分类号: | G06F3/01;G06F3/16;G10L15/26 |
代理公司: | 杭州浙言专利代理事务所(普通合伙) 33370 | 代理人: | 易朝晖 |
地址: | 311121 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 ai 算法 实现 多模态 控制数字 交互 方法 装置 | ||
本发明公开了一种基于AI算法实现多模态控制数字人交互方法,用于用户向终端上的数字人发起语音交互过程中,所述方法包括;获取用户的语音流,其中,所述语音流为所述用户用于咨询业务的输出语音流;将所述语音流通过AI算法识别获得所述语音流对应的用户意图;将所述用户意图信息结构化后发送至业务决策引擎中,所述业务决策引擎基于AI算法与关键字生成话术逻辑匹配获得所述用户意图对应的话术信息,其中,所述话术信息对应有唯一序列号数据;所述终端根据所述唯一序列号数据获取所述话术信息;所述话术信息与所述数字人的数字形象耦合在所述视频输出。
技术领域
本申请涉及人工智能领域,尤其涉及一种基于AI算法实现多模态控制数字人交互方法及装置。
背景技术
数字人,是利用信息科学的方法对人体在不同水平的形态和功能进行虚拟仿真的计算机可视化形态,通过3D图形人物建模、声音克隆技术和动作驱动,结合人工智能技术塑造的数字人已经在多个行业中广泛应用。
然而,目前市面上主流数字人产品均只支持较单一的业务场景,无法根据用户的实时意图与数字人的形象耦合进行交流,且主要用于接待场景的问题咨询,无法完成业务办理。
发明内容
本申请要解决的技术问题,在于提供一种基于AI算法实现多模态控制数字人交互方法及装置,以解决现有数字人产品无法根据用户的实时意图与数字人的形象耦合进行交流的技术问题。
为实现上述目的,本申请采用下述技术方案:
第一方面,本申请提供一种基于AI算法实现多模态控制数字人交互方法,用于用户向终端上的数字人发起语音交互过程中,所述方法包括;
获取用户的语音流,其中,所述语音流为所述用户用于咨询业务的输出语音流;
将所述语音流通过AI算法识别获得所述语音流对应的用户意图;
将所述用户意图信息结构化后发送至业务决策引擎中,所述业务决策引擎基于AI
算法与关键字生成话术逻辑匹配获得所述用户意图对应的话术信息,其中,所述话术信息对应有唯一序列号数据;
所述终端根据所述唯一序列号数据获取所述话术信息;
所述话术信息与所述数字人的数字形象耦合在所述视频输出。
第二方面,本申请提供一种基于AI算法实现多模态控制数字人交互装置,用于用户向终端上的数字人发起语音交互过程中,所述装置包括;
第一获取单元,用于获取用户的语音流,其中,所述语音流为所述用户用于咨询业务的输出语音流;
AI单元,用于将所述语音流通过AI算法识别获得所述语音流对应的用户意图;
第一发送单元,用于将所述用户意图信息结构化后发送至业务决策引擎中,所述业
务决策引擎基于AI算法与关键字生成话术逻辑匹配获得所述用户意图对应的话术信息,其中,所述话术信息对应有唯一序列号数据;
第二获取单元,所述终端根据所述唯一序列号数据获取所述话术信息;
第一耦合单元,用于所述话术信息与所述数字人的数字形象耦合在所述终端输出。
第三方面,本申请提供一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、待码集或指令集,所述至少一条指令、所述至少一段程序、所述待码集或指令集由所述处理器执行以实现如上述第一方面所述的基于AI算法实现多模态控制数字人交互方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、待码集或指令集,所述至少一条指令、所述至少一段程序、所述待码集或指令集由处理器执行以实现如上述第一方面所述的基于AI算法实现多模态控制数字人交互方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江百应科技有限公司,未经浙江百应科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110207667.9/2.html,转载请声明来源钻瓜专利网。