[发明专利]基于多媒体对象的语音交互方法、系统、车辆和程序载体在审
申请号: | 202011131092.9 | 申请日: | 2020-10-21 |
公开(公告)号: | CN112259103A | 公开(公告)日: | 2021-01-22 |
发明(设计)人: | 戚耀文 | 申请(专利权)人: | 戴姆勒股份公司 |
主分类号: | G10L15/30 | 分类号: | G10L15/30;G10L17/04;G10L17/22;G06K9/20;G06K9/62 |
代理公司: | 北京永新同创知识产权代理有限公司 11376 | 代理人: | 慕弦 |
地址: | 德国斯*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多媒体 对象 语音 交互 方法 系统 车辆 程序 载体 | ||
1.一种基于多媒体对象的语音交互的方法,所述方法包括以下步骤:
S1)获取多媒体对象;
S2)提取多媒体对象包含的信息;
S3)将所提取的信息关联到至少一个语音技能模型;以及
S4)根据用户的语音指令输出所述至少一个语音技能模型对应的语音服务。
2.根据权利要求2所述的方法,其中,所述步骤S3包括:
根据所提取的信息中的表征多媒体对象的主体身份的信息生成标识符;为所提取的信息中的附加信息分配所述标识符,使得所述附加信息及其关联的语音技能模型链接到所述主体身份。
3.根据权利要求1或2所述的方法,其中,所述步骤S3包括:
将所提取的信息中的人员姓名、职业、物理地址、电子邮件地址、手机号码、固话号码关联到通讯录模型和/或日历模型;以及
将所提取的信息中的物理地址关联到天气模型和/或导航模型。
4.根据权利要求1至3中任一项所述的方法,其中,所述步骤S3还包括:将多媒体对象的所提取的信息存储到语音技能模型的语料库中并作为训练数据来训练相应的语音技能模型。
5.根据权利要求1至4中任一项所述的方法,其中,所述步骤S2包括:
借助光学字符识别技术识别多媒体对象中的文本字段;
对所述文本字段进行预处理;
对所述文本字段执行特征选择;以及
按照预定义的标准对所选择的特征进行分类。
6.根据权利要求1至5中任一项所述的方法,其中,在步骤S4之前还执行以下步骤:
将所关联的语音技能模型存储在云端并且与用户的身份信息进行绑定。
7.根据权利要求1至6中任一项所述的方法,其中,所述步骤S4包括:
检测用户的语音指令中的第一字段信息和第二字段信息,所述第一字段信息表征用户意图,所述第二字段信息表征多媒体对象的主体身份;
基于第一字段信息定向到至少一个语音技能模型,基于第二字段信息定向到所述语音技能模型的语料库中的条目,所述条目链接到所述主体身份;以及
借助所述语音技能模型基于所述条目来提供语音服务。
8.一种基于多媒体对象的语音交互的系统(100),所述系统用于执行根据权利要求1至7中任一项所述的方法,所述系统(100)包括:
获取模块(110),其配置成能够获取多媒体对象;
提取模块(120),其配置成能够提取多媒体对象包含的信息;
处理模块(130),其配置成将所提取的信息关联到至少一个语音技能模型;以及
输出模块(140),其配置成能够根据用户的语音指令输出所述至少一个语音技能模型对应的语音服务。
9.一种车辆,所述车辆具有根据权利要求8所述的系统(100)。
10.一种机器可读程序载体,在其上存储有计算机程序,所述计算机程序用于当其在计算机上运行时能够实施根据权利要求1至7中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于戴姆勒股份公司,未经戴姆勒股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011131092.9/1.html,转载请声明来源钻瓜专利网。