[发明专利]录音结束点检测方法及系统无效
| 申请号: | 201010526335.9 | 申请日: | 2010-10-29 |
| 公开(公告)号: | CN102456343A | 公开(公告)日: | 2012-05-16 |
| 发明(设计)人: | 魏思;胡国平;胡郁;刘庆峰 | 申请(专利权)人: | 安徽科大讯飞信息科技股份有限公司 |
| 主分类号: | G10L11/02 | 分类号: | G10L11/02;G10L19/00;G09B19/04 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 逯长明;王宝筠 |
| 地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 录音 结束 检测 方法 系统 | ||
技术领域
本发明涉及录音控制技术,尤其涉及录音结束点自动检测技术。
背景技术
经过多年的技术发展,文本相关的语音评测已经步入实用阶段。所谓文本相关的语音评测,指的是用户在给定的文本下进行朗读,语音评测系统存储用户的发音数据并对发音数据进行评价,给出评分。
现有的语音评测系统中,用户的录音控制一般由用户手动完成,也即:当用户点击预设的开始录音按钮后录音开始,而当用户点击预设的完成录音按钮后录音结束。这种录音控制需要用户多次手动点击,操作繁琐,影响了用户体验。
因此,现有技术中出现了一种自动进行录音控制的方法,在该方法中,由语音评测系统自动检测用户录音状态为发音或静音,当用户的静音持续时间超过一预设的时间阈值时,确定录音结束。但是,这种自动进行录音控制的方法中,所述时间阈值的设置如果较短时,可能出现将用户的正常发音停顿判定为录音结束点的问题,造成用户语音截断,因此,现有技术中一般将该时间阈值设置为较大的值,例如2秒甚至更长,因此,用户完成发音后需等待很长时间,语音评测系统才能识别出录音结束点,结束录音,使得语音评测系统对于录音结束点的识别效率低,影响了语音评测效率,降低用户体验。
发明内容
有鉴于此,本发明要解决的技术问题是,提供一种录音结束点检测方法及系统,能够提高对于录音结束点的识别效率。
为此,本发明实施例采用如下技术方案:
本发明实施例提供一种录音结束点检测方法,包括:预设静音持续时间阈值为所述第一时间阈值;该方法还包括:
获取录音文本,确定该录音文本的文本结束点声学模型;从录音数据中的录音开始帧开始,依次获取每一帧录音数据;
确定获取到的当前帧录音数据的解码最优路径的特征声学模型;
判断当前帧录音数据的解码最优路径的特征声学模型与所述结束点声学模型相同时,将静音持续时间阈值更新为第二时间阈值,所述第二时间阈值小于第一时间阈值。
所述确定文本结束点声学模型包括:
根据录音文本生成文本对应的解码网络,将所述解码网络对应的最后一个声学模型确定为文本结束点声学模型。
所述确定当前帧录音数据的解码最优路径的特征声学模型包括:
从当前帧的录音数据中提取与预设的声学模型相对应的MFCC特征,得到当前帧录音数据的解码最优路径;
确定当前帧录音数据的解码最优路径的最后一个声学模型为解码最优路径的特征声学模型。
还包括:判断当前帧录音数据的解码最优路径的特征声学模型与所述结束点声学模型不相同时,保持所述静音持续时间阈值为所述第一时间阈值。
每次获取到一帧录音数据之后还包括:
获取到的当前帧录音数据为静音数据,而且,当前静音持续时间超过当前的静音持续时间阈值时,结束录音。
所述获取每一帧录音数据之前,进一步包括:
接收录音数据,从录音数据中确定录音开始帧。
所述从录音数据中确定录音开始帧包括:
依次判断每一帧录音数据为静音数据或非静音数据,将第一帧非静音数据所在的帧作为录音开始帧。
本发明实施例还提供一种录音结束点检测系统,预设静音持续时间阈值为所述第一时间阈值;该系统还包括:
第一确定单元,用于获取录音文本,确定该录音文本的文本结束点声学模型;
第一获取单元,用于从录音数据中的录音开始帧开始,依次获取每一帧录音数据;
第二确定单元,用于确定获取到的当前帧录音数据的解码最优路径的特征声学模型;
阈值确定单元,用于判断当前帧录音数据的解码最优路径的特征声学模型与所述结束点声学模型相同时,将静音持续时间阈值更新为第二时间阈值,所述第二时间阈值小于第一时间阈值。
第一确定单元包括:
获取子单元,用于获取录音文本;
网络建立子单元,用于根据录音文本建立文本对应的解码网络;
第一特征确定子单元,用于将所述解码网络的最后一个声学模型确定为文本结束点声学模型。
第二确定单元包括:
提取子单元,从当前帧的录音数据中提取与预设的声学模型相对应的MFCC特征,得到当前帧录音数据的解码最优路径;
第二特征确定子单元,用于确定当前帧录音数据的解码最优路径的最后一个声学模型为解码最优路径的特征声学模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽科大讯飞信息科技股份有限公司,未经安徽科大讯飞信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010526335.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:浇注机
- 下一篇:用于3D打印砂型的烘干方法





