[发明专利]话语分类器在审
| 申请号: | 201880049126.4 | 申请日: | 2018-04-09 |
| 公开(公告)号: | CN110959159A | 公开(公告)日: | 2020-04-03 |
| 发明(设计)人: | N.D.霍华德;G.西姆科;M.C.帕拉达桑马丁;R.卡尔亚纳森达拉姆;G.P.阿鲁穆加姆;S.瓦苏德范 | 申请(专利权)人: | 谷歌有限责任公司 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G10L15/22;G10L15/26;G10L17/00;G06K9/62 |
| 代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
| 地址: | 美国加利*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 话语 分类 | ||
一种方法、系统和装置,包括在计算机存储介质上编码的、用于使用神经网络进行分类的计算机程序。一种方法包括接收与话语相对应的音频数据。获得话语的转录。生成音频数据的表示。生成话语的转录的表示。向分类器提供(i)音频数据的表示和(ii)话语的转录的表示,该分类器基于音频数据的给定表示和话语的转录的给定表示,被训练为输出与给定表示相关联的话语是否可能指向自动辅助还是可能不指向自动辅助的指示。
技术领域
本说明书通常涉及分类,并且更具体地涉及使用神经网络的分类。
背景技术
语音使能(speech-enabled)的环境是其中用户可以大声说出查询或命令并且基于计算机的系统将使用语音识别技术获得查询、答复查询和/或使命令被执行的环境。语音使能的环境可以包括分布在整个环境的各个房间或区域中的连接的麦克风设备的网络。用户基本上可以在语音使能的环境中从任何地方对基于计算机的系统进行口头查询,而无需在他/她面前甚至附近拥有计算机或其他设备。例如,在早上穿衣服的时候,用户可能会问基于计算机的系统“外面的温度是多少?”,并且作为响应,用户会从系统例如以合成语音输出的形式接收到答复。在其他示例中,用户可能会问基于计算机的系统问题,诸如“我最喜欢的餐厅几点开门?”或“最近的加油站在哪里?”。
发明内容
对于语音使能的环境,用户可以主要通过语音输入与基于计算机的系统进行交互。作为结果,基于计算机的系统可以潜在地获得在语音使能的环境中生成的所有话语和噪声,包括不针对基于计算机的系统的那些话语。因此,基于计算机的系统必须具有某种方式来区分针对基于计算机的系统的话语与不针对基于计算机的系统的话语,更确切地说,针对存在于语音使能的环境中的其他个人的话语。一种实现此目的的方法是,用户使用预定的词(诸如热词或关键词)来表示对基于计算机的系统的关注。此外,语音使能的环境中的其他个人了解到,预定词的使用仅用于基于计算机的系统。例如,用户可以说“好的电脑”,后跟查询,以向基于计算机的系统提问。然而,每次用户问基于计算机的系统时,用户都必须说预定的词,这样的问题会打乱正常的对话流程,并给用户带来认知负担。为了减轻这种认知负担,基于计算机的系统可以在用户使用预定词问了第一个问题之后使麦克风保持打开状态,以解决用户可能遇到的任何后续问题。后续问题将不需要使用预定的词。然而,基于计算机的系统仍将需要辨别针对计算机系统的问题以及获得的并非针对计算机系统的其他话语。因此,如果基于计算机的系统确定后续话语看起来像是可能针对基于计算机的系统的问题,则接受并处理话语。否则,基于计算机的系统将关闭麦克风,并等待来自用户的包括预定词的下一次话语。因此,可以提供一种改进的机制来促进诸如用户命令的用户输入到基于计算机的系统。
在一些实施方式中,一旦基于计算机的系统侦听问题的跟进,基于计算机的系统就允许与用户进行自由形式的对话。用户不再需要使用预定的热词来与基于计算机的系统通信。基于计算机的系统使用所获得话语的声学特性和所获得话语的识别文本两者来确定后续问题是否直接针对基于计算机的系统。
在一些实施方式中,分类系统包括用于识别人类语音内容的分类器。具体地,内容包括人类语音的受众可能指向自动辅助服务器的确定。分类系统包括语音识别器、转录表示生成器、声学特征生成器、连接模块和分类器以执行该确定功能。语音识别器可以获得由用户说出的话语信息,并生成来自用户的口头话语(spoken utterance)的转录(transcription)。声学特征生成器可以接收由用户说出的话语信息并输出语音单元表示,诸如描述所接收的口头话语的音频特性的特征向量。转录表示生成器可以从语音识别器接收语音的转录,并输出包括词嵌入的转录。连接模块可以接收声音信息和词嵌入,将声音信息和词嵌入连接成矩阵表示,并将矩阵表示提供给分类器。分类器提供指示,表明所获得话语的受众很可能是指向自动辅助服务器的。
在一些实施方式中,分类器包括一个或多个神经网络元件以处理口头话语。分类器使用用户先前说过的查询示例训练神经网络元件,这些查询不太可能指向自动辅助服务器。这种类型的训练允许分类器检测这些类型的查询,并另外提供指示,表明所获得的查询的受众可能会指向自动辅助服务器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880049126.4/2.html,转载请声明来源钻瓜专利网。





