[发明专利]一种交互式语音识别系统和方法有效
| 申请号: | 201010269306.9 | 申请日: | 2010-08-31 | 
| 公开(公告)号: | CN101923854A | 公开(公告)日: | 2010-12-22 | 
| 发明(设计)人: | 李新辉;王向东;钱跃良;林守勋 | 申请(专利权)人: | 中国科学院计算技术研究所 | 
| 主分类号: | G10L15/00 | 分类号: | G10L15/00 | 
| 代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;梁挥 | 
| 地址: | 100080 北*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 交互式 语音 识别 系统 方法 | ||
技术领域
本发明涉及语音识别技术领域,特别是涉及一种交互式语音识别系统和方法。
背景技术
目前面向特殊应用的中小词汇量语音识别技术已得到实际应用。然而,由于受到背景噪音、方言口音、口语化的自然语音以及语义理解等因素的限制,面向真实场景的大词汇量连续语音识别系统的性能远远无法满足实际应用要求。
在已有的语音识别系统中,已经出现了一些交互技术,主要是错误纠正技术,即在一句话识别后由说话人对识别结果中的错误进行纠正。早期的系统可同时提供多种交互方式,包括单词重新发音(re-speaking),单词拼写(spelling),键盘输入、手写输入等。近期语音识别系统中主要采用候选选择修正技术,系统对每个单词给出多个候选,并提供相应的交互界面,允许用户在语音输入的同时或完成之后通过选择候选修正语音识别结果。该系统针对无噪声的朗读语音,可以达到实时应用并能够修正大部分识别错误。总的来说,现有语音识别系统中的交互技术多数集中在对识别结果的修正上,缺乏利用多种交互手段,以及利用交互信息进行自动学习的相关系统。
在语音识别技术中,存在一种识别中的自动学习技术,称作模型自适应技术。模型自适应技术又可分为声学模型自适应和语言模型自适应。语音识别系统中的声学模型是一种估计某种声学信号对应某个发音的概率的模型。声学模型自适应,主要是说话人自适应,即根据不同的说话人的发音特点(包括其嗓音特点、发音习惯以及方言口音等),对基础声学模型进行调整,以得到更适合当前说话人的模型。按照自适应训练过程有无监督,自适应可以分为:(1)有监督自适应:自适应训练过程中训练语音的内容对于系统是已知的;(2)无监督自适应:自适应训练过程中训练语音的内容对于系统是未知的,需要由系统通过识别获得。显然,有监督自适应由于语音与文本信息是已知的,因此对声学模型的自适应训练更为可靠,其性能要远远优于无监督自适应,特别是在发音不够标准的情况下。但由于很难在识别的同时获得准确的文本信息,因此现有语音识别系统中的声学模型自适应都以无监督自适应为主。
语音识别系统中的语言模型是一种估计某种发音对应某个具体字或词的概率的模型。语言模型自适应的基本思想是,根据不断变化的应用环境,不断调整语言模型中各种语言现象出现的概率,以适应不同应用环境各自的特征。与声学模型自适应类似,可根据语料的可靠性将语言模型自适应分为有监督与无监督自适应,前者采用的为可靠的文本,而后者则动态的将系统识别结果作为自适应语料。显然,有监督自适应的效果要优于无监督自适应,但由于一般的语音识别应用在识别过程中很难得到标准答案,因此绝大多数系统都采用无监督自适应。
另外,对于同时存在多个说话人的语音,如广播语音和会议语音,语音识别系统在做语音识别和自适应时还需要对说话人进行分割和跟踪,以保证自适应在同一个说话人的语音上完成。现有的语音识别系统都是通过系统自动识别来对说话人进行分割和跟踪,这种识别不但消耗了大量的计算资源,而且其结果也不是很准确,错误的结果很可能导致系统性能的恶化。
发明内容
本发明的目的在于提供一种交互式语音识别系统和方法。通过交互的方式,使得语音识别系统输出的候选越来越准确。
为实现本发明的目的而提供的一种交互式语音识别系统,所述系统,包括:声学模型和语言模型选择模块、语音语句提取模块、语音识别模块、候选生成与错误修正模块和交互模块,其中:
所述声学模型和语言模型选择模块,用于在语音识别开始前,根据通过交互模块输入的待识别对象信息,为每个待识别对象选择与之发音特点最相似的声学模型和为整个识别过程选择与之领域最相似的语言模型;
所述语音语句提取模块,用于在语音识别过程中,将整段语音信号切分成若干个语音语句,然后再将每一个语音语句提取出来,送至语音识别模块;
所述语音识别模块,用于根据选择的声学模型和语言模型为每个待识别对象开启一个识别线程,对语音语句提取模块提取后得到的语音语句进行识别,并输出中间识别结果;
所述字候选生成和错误修正模块,用于根据汉语的语言特点,对所述识别中间结果进行处理生成候选集,再根据通过所述交互模块选择的候选或输入的正确数据来纠正识别错误得到最终识别结果;
所述交互模块,用于将用户输入的数据发送给所述声学模型和语言模型选择模块,以及向用户反馈所述字候选生成和错误修正模块的识别结果。
所述系统,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010269306.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:音讯柔化系统、装置与方法
- 下一篇:一种实现视频信号冗余备份的系统及方法





