[发明专利]用户、自动化助理和其它计算服务之间的多模态交互在审
申请号: | 201880094239.6 | 申请日: | 2018-05-07 |
公开(公告)号: | CN112868060A | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 乌拉什·基拉兹吉;亚当·科英布拉;亚伯拉罕·李;董伟;特胡尚·阿马拉西里瓦德纳 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;邓聪惠 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户 自动化 助理 其它 计算 服务 之间 多模态 交互 | ||
本文描述了用于用户、自动化助理和其它计算服务之间的多模态交互的技术。在各种实现方式中,用户可以与自动化助理接洽以便进一步与第三方计算服务接洽。在一些实现方式中,用户可以使用口头输入模态和除口头模态以外诸如视觉/触觉模态的输入模态两者来前进通过与第三方计算服务相关联的对话状态机。
背景技术
人类可以参与与在本文中称为“自动化助理”(也称为“聊天机器人”、“交互式个人助理”、“智能个人助理”、“个人话音助理”、“谈话代理”等)的交互式软件应用的人机对话。例如,人类(其在他们与自动化助理交互时可以被称为“用户”)可以使用自由形式自然语言输入来提供命令、查询和/或请求(在本文中统称为“查询”),该自由形式自然语言输入可以包括被转换成文本并且然后被处理的有声话语和/或键入的自由形式自然语言输入。在许多情况下,必须首先例如使用预定义口头调用短语来“调用”自动化助理。
存在能够与自动化助理交互的许多计算服务(也称为“软件代理”或“代理”)。这些计算服务常常由将在本文中被称为“第三方”(或“第三方开发者”)的人开发和/或提供,因为提供计算服务的实体常常不直接与提供自动化助理的实体紧密联系。然而,计算服务不限于由第三方开发的计算服务,并且可以由实现自动化助理的同一实体实现。计算服务可以被配置成解析各种不同的用户意图,其中的许多意图可能无法由自动化助理解析。此类意图可以涉及但是当前不限于控制或配置智能设备、接收用于执行任务的分步指令以及与在线服务交互。因此,许多自动化助理可以同时地与用户和第三方计算服务两者交互,从而有效地作为用户与第三方之间的调解者或中介。
一些第三方计算服务可以依照对话状态机操作,这些对话状态机有效地定义多个状态以及那些状态之间的转变,这些转变是基于从用户和/或在别处(例如,传感器、web服务等)接收到的各种输入而发生。当用户在与第三方计算服务的一个或多个对话“轮次(turn)”期间(通过自动化助理作为调解者)提供(口头的或键入的)自由形式自然语言输入时,与第三方计算服务相关联的对话状态机将在各种对话状态之间前进。最终,对话状态机可以达到解析用户的意图的状态。
发明内容
随着自动化助理变得更普遍,专门地设计用来促进与自动化助理交互的计算设备—在本文中称为“助理设备”—正变得更平凡。许多助理设备使得用户能够参与与自动化助理的无接触交互。例如,助理设备常常包括允许用户提供有声话语作为输入的麦克风。附加地,越来越多的助理设备现在包括显示能力。
因此,在本文中描述了用于用户、自动化助理和其它计算服务之间的多模态交互的技术和框架。更特别地但不排他地,本文描述的一些实现方式允许用户使用除口头自由形式自然语言输入以外的输入模态如视觉/触觉模态来前进通过与第三方计算服务相关联的对话状态机。如本文所使用的,“口头”将是指能够由用户通过与键盘交互和/或通过提供有声话语(其可以使用语音辨识被转换为文本内容)来提供的自由形式自然语言输入。附加地或替换地,本文描述的一些实现方式允许用户触发与和第三方计算服务相关联的图形用户界面的无接触交互。在本文中设想了其它变型。提供用于使得用户能够使用口头输入和非口头输入两者的组合来与第三方服务交互的机制可以促进由健全用户和具有各式各样残疾的用户两者对第三方服务的访问(并且可以减少对于服务的特殊适配版本的需要)。这不仅是因为该机制可以使得用户能够以最适于他们的方式与第三方服务交互。
在一些实现方式中,自动化助理可以包括客户端部分和服务器部分。自动化助理的客户端部分可以作为“助理应用”在客户端设备(例如,智能电话、智能手表、助理设备等)上操作。自动化助理的服务器部分可以在一个或多个服务器上操作,这些服务器有时在本文中被称为“云”计算系统或“云”。在各种实现方式中,客户端设备可以包括显示器,该显示器例如由自动化助理的客户端部分使用来渲染图形用户界面(“GUI”)。在一些实现方式中,GUI可以采取嵌入式web浏览器的形式,该嵌入式web浏览器基于由第三方计算服务提供的基础标记语言(例如,HTML、XML)来渲染图形。GUI的提供可以使得用户能够以比单独通过音频交互可能的更高效方式与第三方计算服务交互。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880094239.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于原子的电磁场感测元件与测量系统
- 下一篇:节能发送技术