[发明专利]语音编辑装置、语音编辑方法和语音编辑程序无效
申请号: | 200680018555.2 | 申请日: | 2006-05-25 |
公开(公告)号: | CN101185115A | 公开(公告)日: | 2008-05-21 |
发明(设计)人: | 寺西利之;幡野浩司 | 申请(专利权)人: | 松下电器产业株式会社 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/10;G10L13/06 |
代理公司: | 北京市柳沈律师事务所 | 代理人: | 邸万奎 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 编辑 装置 方法 程序 | ||
技术领域
本发明涉及语音编辑装置、语音编辑方法和语音编辑程序。
背景技术
一般来说,当编辑者编辑已记录语音数据时,该编辑者在聆听所播放的语音的同时指定并剪切编辑点(editing point)。
在专利文献5中,当编辑者生成语音卡(这是通过将语音记录在卡并将图片贴在卡上来生成的)时,编辑者利用高级语音编辑程序将语音表示在计算机屏幕上的编辑窗口中,并使用诸如鼠标之类的工具来删除、剪切或组合语音的组成部分。
此外,语音识别装置将语音标准模式(以下称为“标准模式”)用作语音识别词典(voice recognition dictionary)以识别语音。然而,标准模式需要进行扩充以增加可以以语音识别(voice-recognize)的词(word)的数量。在这种情况下,可以删除或剪切现存标准模式的组成部分。
现在描述在语音识别装置中作为语音识别词典的标准模式的编辑。
语音识别装置将目标语音分割为预定时间间隔(帧),提取指示每一帧的语音波形的特征的多维特征参数(倒谱(cepstrum)),将特征参数的时间序列模式与在语音识别装置中累积的标准模式(作为语音识别的基本单元的多个词的特征参数的时间序列模式)进行比较,确定它们之间的相似度,并将具有最高相似度的词输出作为识别结果。
通过将语音信号以约20到40毫秒的时间帧分开以获得倒谱(特征参数),其使用与该时间帧对应的语音信号的快速傅立叶变换(FFT),获得幅度谱的对数,并使用该对数的频谱的离散傅立叶逆变换(IDFT)。
由FFT获得的该语音的频谱包括该语音的近似结构信息(指示音位性质的包络信息)以及微振荡分量的信息(指示声音的音调的微结构信息)。在语音识别的情况下,提取语音的音素(即估计语音的声音)很重要,而微结构信息不是很重要。因此,通过使用对数的频谱的IDFT将包络信息和微结构信息彼此分开。
当使用IDFT时,包络信息被集中在类频率(quefrency)轴(水平轴)的左边,而微结构信息被集中在类频率轴的右边。因此,包络信息和微结构信息可以有效地彼此分开。这就是倒谱。对于语音分析,可以用LPC(线性预测编码)代替FFT。
Mel暗示根据人类听觉性能将类频率轴转换为对数函数。
在该发明中,“倒谱”包括“Mel倒谱”,其主要被表示为“特征参数”。“倒谱”或“特征参数”可以被表示为“语音数据”。上位概念(super ordinateconcept)“语音数据”除了语音的特征参数外(倒谱)外,还包括“被转换为文本的语音”和“语音数据(波形数据)”。
语音识别装置具有多个标准模式(即关于作为识别单元的每一个词的例谱:指示该词的声音的特征的特征参数)作为识别词典。该语音识别装置需要具有许多标准模式以增加可以识别的词的数量。
专利文献1公开了通过输入词的文本并自动生成词的标准模式生成用于语音识别的新标准模式的方法。
专利文献2提出了将音素词典用来代替标准模式。专利文献2公开了这样的音频识别技术:为了生成用于非特定个人的识别词典,将少量人发音的词的特征参数与基于大量人的语音生成的普通标准模式进行比较,以便根据比较结果生成音素词典并用于音频识别。
专利文献3公开了用以控制配备有语音识别装置的移动终端(移动终端等)的操作的识别语音的技术。
专利文献4公开了在配备有语音识别装置和文本转换装置的移动终端(移动终端、PDA等)中将输入语音自动转换为文本数据的技术。
由于移动终端需要小巧和廉价,因此实际上移动终端配备具有简单识别词典(标准模式)的相对廉价的语音识别装置。在这种情况下,用户根据其情形更新移动终端的识别词典(即用户定制识别词典)。
当用户定制安装在移动终端上的识别词典时,如果其过程或操作太复杂,则会给移动终端用户造成不便。因此,需要不给用户使用造成困难并允许用户轻松地扩充识别词典(标准模式)的技术。此外,例如,当编辑大量语音数据的组成部分时,由于从其开头输入大量语音数据的操作会导致非常低的效率,因此需要方便地编辑语音数据的技术。
专利文献1:JP-A-11-190997
专利文献2:JP-A-5-188988
专利文献3:JP-A-2004-153306
专利文献4:JP-A-2003-188948
专利文献5:JP-A-2000-276184
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于松下电器产业株式会社,未经松下电器产业株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680018555.2/2.html,转载请声明来源钻瓜专利网。