[发明专利]一种交互式语音识别系统和方法有效
| 申请号: | 201010269306.9 | 申请日: | 2010-08-31 | 
| 公开(公告)号: | CN101923854A | 公开(公告)日: | 2010-12-22 | 
| 发明(设计)人: | 李新辉;王向东;钱跃良;林守勋 | 申请(专利权)人: | 中国科学院计算技术研究所 | 
| 主分类号: | G10L15/00 | 分类号: | G10L15/00 | 
| 代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;梁挥 | 
| 地址: | 100080 北*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 交互式 语音 识别 系统 方法 | ||
1.一种交互式语音识别系统,其特征在于,所述系统,包括:声学模型和语言模型选择模块、语音语句提取模块、语音识别模块、候选生成与错误修正模块和交互模块,其中:
所述声学模型和语言模型选择模块,用于在语音识别开始前,根据通过交互模块输入的待识别对象信息,为每个待识别对象选择与之发音特点最相似的声学模型和为整个识别过程选择与之领域最相似的语言模型;
所述语音语句提取模块,用于在语音识别过程中,将整段语音信号切分成若干个语音语句,然后再将每一个语音语句提取出来,送至语音识别模块;
所述语音识别模块,用于根据选择的声学模型和语言模型为每个待识别对象开启一个识别线程,对语音语句提取模块提取后得到的语音语句进行识别,并输出中间识别结果;
所述字候选生成和错误修正模块,用于根据汉语的语言特点,对所述识别中间结果进行处理生成候选集,再根据通过所述交互模块选择的候选或输入的正确数据来纠正识别错误得到最终识别结果;
所述交互模块,用于将用户输入的数据发送给所述声学模型和语言模型选择模块,以及向用户反馈所述字候选生成和错误修正模块的识别结果。
2.根据权利要求1所述的交互式语音识别系统,其特征在于,所述系统,包括:
声学模型和语言模型自适应模块,用于利用提取到的语音语句和对应的最终识别结果对声学模型和语言模型进行有监督自适应,并保存自适应后的声学模型和语言模型。
3.根据权利要求1所述的交互式语音识别系统,其特征在于,对于待识别对象不够稳定和语音内容涉及领域比较多变的应用环境,所述声学模型和语言模型选择模块将为每个待识别对象都选择相同的通用声学模型和为整个识别过程选择通用语言模型。
4.根据权利要求1所述的交互式语音识别系统,其特征在于,对于特定的识别对象,通过向所述交互模块输入该对象的姓名,所述声学模型和语言模型选择模块根据姓名为该对象选择特定的声学模型。
5.根据权利要求1所述的交互式语音识别系统,其特征在于,在识别过程中当待识别对象发生切换时,通过所述交互模块指示所切换到的当前待识别对象,所述声学模型和语言模型根据指导信息将提取到语音语句送到与当前待识别对象所对应的识别线程进行识别。
6.根据权利要求1所述的交互式语音识别系统,其特征在于,所述语音信号既可以是预先录好的音频文件,也可以是实时的语音信号;对于音频文件,采用端点检测方法对音频文件进行端点检测提取所有的语音语句;对于实时的语音信号,通过实时地采集说话人语音,并对采集到的语音进行端点检测提取语音语句。
7.根据权利要求6所述的交互式语音识别系统,其特征在于,对于实时的语音信号进行实时的识别,采用分段采集和缓冲池的方法,每采集一段固定长的音频就把它放到缓冲池中,同时只要缓冲池不为空就从缓存池中拿出一段音频进行端点检测,音频采集与端点检测以同步的方式访问缓冲池。
8.根据权利要求7所述的交互式语音识别系统,其特征在于,所述固定长的音频的长度值为3秒。
9.根据权利要求1所述的交互式语音识别系统,其特征在于,所述中间识别结果是词网格,是一个定向无环图,它包含大量识别过程中产生的词假设,并用相应的弧及相关的似然度得分来表示。
10.根据权利要求9所述的交互式语音识别系统,其特征在于,所述字候选生成和错误修正模块对所述词网格中的弧对齐生成一个对齐网络,对该对齐网络按字切分得到字候选,再从所述字候选列中查找正确的字来修正识别错误,或者根据输入的正确数据来修正识别错误。
11.根据权利要求2所述的交互式语音识别系统,其特征在于,所述声学模型和语言模型自适应模块,利用收集到的语音语料和对应的修正后识别结果,为每个发言者所对应的声学模型作有监督声学模型自适应,该自适应分为两种:在线自适应,当收集到的任何发言者的语音语料超过一定数量时,就为其对应的声学模型作有监督自适应;离线自适应,在所有识别工作结束后,为每个发言者所对应的声学模型作有监督声学模型自适应;同样,利用收集到的所有发言者的修正后识别结果,对语言模型进行有监督自适应,该自适应也分为两种:在线自适应,当收集到的所有修正后识别结果超过一定数量时,就为语言模型作有监督自适应;离线自适应,在所有识别工作结束后,为语言模型作有监督声学模型自适应。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010269306.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:音讯柔化系统、装置与方法
- 下一篇:一种实现视频信号冗余备份的系统及方法





