[发明专利]协作会话语音用户界面的系统和方法有效
申请号: | 200780042315.0 | 申请日: | 2007-10-16 |
公开(公告)号: | CN101535983A | 公开(公告)日: | 2009-09-16 |
发明(设计)人: | L·贝尔德文;T·弗莱曼;M·特加尔弗;B·艾弗尔索德;C·威德尔 | 申请(专利权)人: | 沃伊斯博克斯科技公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 李向英 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 协作 会话 语音 用户界面 系统 方法 | ||
技术领域
本发明涉及人机语音用户界面的协作性会话模型。
背景技术
技术的进步,特别是在收敛(convergence)空间内,导 致了对语音识别软件的需求的增加,该软件可以以对人类直观的方式 利用该技术。尽管由于共享信息和/或上下文以推进相互的谈话目标, 人类之间的通信常常是“协作性的”,但是,现有的人机界面却不能提 供相同级别的直观的交互。例如,谈话中的每一个人类参与者都可以 为了受益于交换而对交换给出贡献。这是通过关于谈话的各个方面的 共享的假设和预期完成的,如主题、参与者的有关主题的知识,对另 一个参与者的有关主题的知识的预期,对于主题和/或参与者的适当的 措词,基于以前的发声的谈话的发展,参与者的语气或语气变化,从 每一个参与者预期的贡献的质量和数量,以及许多其他因素。参与连 续地形成的并依赖共享的信息的谈话是人类交谈的天然而直观的方 式。
相比之下,复杂的人机界面不允许用户直观地利用技术, 这阻碍了各种技术的大量的采用。利用语音界面,通过使交互更加容 易,更快,有助于减轻此负担,但是,现有的语音界面(当他们实际 工作时)仍需要用户进行很多的学习。即,现有的语音界面不能在古 老的人机界面和谈话语音之间架起桥梁,使得与系统的交互感觉起来 很普通。用户应该能够以普通的谈话方式直接从系统请求他们所需要 的东西,无需记住准确的词语。或者,当用户不能确定特定需求时, 他们应该能够使系统参加有成果的对话,以解决他们的请求。相反, 现有的语音界面迫使用户为了配合简单语言的简单指令集以便以系 统可以理解的方式发出请求而不说出他们的请求。通过使用现有的语 音界面,用户和系统之间的对话几乎没有办法满足相互的目标。
因此,现有的系统缺乏一种谈话语音模型,谈话语音模型 可以给用户提供以对人类固有地直观的方式与系统进行交互的能力。 现有的系统存在这些及其他问题。
发明内容
根据本发明的各个实施例和方面,协作性的谈话语音用 户界面可以理解自由形式的人类发声,把用户从被限制于固定的命令 集和/或请求中解放出来。相反地,用户可以使用天然的、直观的,自 由形式的表达方式,参与与机器的协作性的谈话,以完成请求或一系 列请求。
根据本发明的一个方面,提供了用于实现协作会话语音 用户界面的示范性系统体系结构。系统可以接收输入,输入可以包括 由输入设备接收到的人的发声,发声可以包括一个或多个请求。如这 里所使用的,“发声”可以是字、音节、音素或由人发出的任何其他可 听的声音。如这里所使用的,“请求”可以是设备、计算机或其他机器 检索信息、执行任务或执行某种其他操作的命令、指令或其他指令。 在一种实现方式中,输入可以是多模输入,多模输入的至少一部分是 发声。输入的发声分量可以由自动语音识别器进行处理,以生成发声 的一个或多个初步解释。然后,可以将一个或多个初步解释提供到会 话语音引擎,以便进一步地进行处理,其中,会话语音引擎可以与一 个或多个数据库进行通信,以生成自适应会话响应,响应可以作为输 出返回到用户。在一种实现方式中,输出可以是多模输出。例如,发 声可以包括执行操作的请求,而输出可以包括报告成功或失败的会话 响应,以及操作的执行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沃伊斯博克斯科技公司,未经沃伊斯博克斯科技公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200780042315.0/2.html,转载请声明来源钻瓜专利网。