[发明专利]与扬声器无关的语音识别装置无效
申请号: | 200810125358.1 | 申请日: | 2002-04-17 |
公开(公告)号: | CN101334997A | 公开(公告)日: | 2008-12-31 |
发明(设计)人: | O·维基;K·劳里拉 | 申请(专利权)人: | 诺基亚有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/28 |
代理公司: | 北京市金杜律师事务所 | 代理人: | 王茂华;赵林琳 |
地址: | 芬兰*** | 国省代码: | 芬兰;FI |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 扬声器 无关 语音 识别 装置 | ||
本申请是分案申请,母案申请号为:02105569.4,母案申请日为:2002年4月17日;母案申请的发明名称为:“与扬声器无关的语音识别装置”。
技术领域
本发明涉及在远程通信系统中与扬声器无关的语音识别,尤其是涉及用于语音识别的发音模型化。
技术背景
近年来已经开发了不同的语音识别应用,例如,用于汽车的用户接口和移动站等。用于移动站的已知方法包括通过对移动站的话筒大声地说出他的/她的名字并建立对依据用户所说的名字号码的呼叫来呼叫一个特定人的方法。然而,为了识别每个名字的发音,本方法通常需要对网络中的移动站或系统进行培训。与扬声器无关的语音识别改进了语音控制的用户接口的可用性,因为可以省略这个培训阶段。在扬声器无关的名字选择中,可以对联系信息中的名字的发音模型化,可以将由用户说出的名字与所规定的发音模型,如一种音素序列,作比较。
多种与扬声器无关的语音识别方法是已知的,由此可以实现发音的模型化。例如,为此目的可以使用音素词汇。基于音素词汇的一种方法公开在WO 9 926 232中。然而,音素词汇的规模是如此之大,以致目前移动站的存储器容量是不够的。其它的问题是由在词汇中未找到的名字和字引起的。不同的统计方法,如神经网络和判定树,使较少的存储器花费成为可能。虽然利用判定树比利用需要较少存储器空间的神经网络可以达到更精确的结果,但两种方法都是有丢失的。这样就降低了模型的精度,也就使语音识别精度的性能下降。因此,关于精度和存储器的花费必须要作折衷。尽管有高的压缩度,判定树和神经网络的存储器要求仍然是相当高的。典型情况下,一种基于判定树的模型系统对每种模型化的语言需要大约100至250KB的存储器,当实施移动站时,这可能是太多了。另一种可选方案是发送由用户的语音组成的声频信号到一个网络,并在网络中实现语音识别。在网络中实现语音识别需要对一种服务建立连接,这将引起过分的延时,并且无线电路径上的干扰降低后继工作的前景。
发明概述
因此,本发明的一个目的是提供一种方法和实现该方法的设备,使得精确的发音模型化成为可能并减轻以上的问题。本发明的目的是利用其特征被描述在独立的权利要求中的方法,远程通信系统,电子设备,服务器,计算机程序产品和数据媒体实现的。本发明的优选实施方案被公开在从属的权利要求中。
本发明是基于这样的构思,即用于便携式电子设备的发音模型化是在一种分离的服务器设备中实现的。因此,要将用于语音识别的字符序列从一个电子设备发送到一个比电子设备拥有更多的可用的存储器容量的服务器。字符序列在服务器中被变换成至少一种声音单元序列。将该声音单元序列从该服务器发送到该电子设备以便在语音识别中使用。任何包括远程通信装置的数据处理设备可起着该服务器的作用,将该数据处理设备安排成实施对从一个或多个电子设备接收到的字符序列变换成一种声音单元序列。字符序列是指字符的任何组合。典型情况下,它是一种字母序列,但也可以是标点符号(例如逗号或空格字符)。字符序列也可以由多数在亚洲人的语言中使用的象形字符组成。声音单元包括任何声音事件,例如20ms语音样本,音节,音素或音素的部分。典型情况下,实现语音识别的设备将音素分成三部分(开始,中间,结束),可以据此实施与语音信息的比较。应该指出,一个音素也可以是指一个音素群(在不同的语言中发音形式可以相互非常接近)。
因为服务器本来就比该电子设备拥有更多的可用的存储器容量,在依据本发明的解决方案中,对发音模型化精度的折衷是不需要的。因为没有存储器约束,也可以支持比在电子设备中实施的模型化更多的语言。
依据本发明的优选实施方案,将从电子设备接收到的字符序列用作搜索与所述的序列有关的信息(例如电话号码)的基础。除了声音单元序列以外,将该信息发送到电子设备。这对用户是有利的,因为可以容易地提供与字符序列有关的附加信息用于电子设备中。
依据本发明的另一种优选实施方案,在一种声音合成器中用声音单元序列组成一个声音模型。将该声音模型存储在电子设备中,将它与字符序列或它的标记相联系。至少作为对基本上对应于从字符序列接收到的声音单元序列的用户语音命令的一种响应,对电子设备的用户重复该声音模型。这样就改进了可用性,因为用户也接收与字符序列有关的声音反馈。
附图简述
现在将参考附图,结合优选实施方案更详细地描述本发明,其中:
图1a示出一种可以应用本发明的远程通信系统方框图;
图1b示出一种电子设备和服务器的方框图;
图2示出一种依据本发明的第一优选实施方案的方法的流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于诺基亚有限公司,未经诺基亚有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810125358.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:机床
- 下一篇:吹塑成型机的配置结构