[发明专利]基于深层神经网络的婴儿啼哭声识别方法及系统有效

申请号：	201310347807.8	申请日：	2013-08-09
公开（公告）号：	CN104347066B	公开（公告）日：	2019-11-12
发明（设计）人：	景亚鹏;张峰;吴义坚	申请（专利权）人：	上海掌门科技有限公司
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/16;G10L25/24
代理公司：	北京辰权知识产权代理有限公司 11619	代理人：	肖文文
地址：	201203 上海***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深层神经网络婴儿啼哭识别方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种基于深层神经网络的婴儿啼哭声识别方法及系统，所述方法包括采集训练用婴儿啼哭声数据；对所述训练用婴儿啼哭声数据进行分类标注；提取每一个分类标注的训练用婴儿啼哭声数据中每段音频的梅尔域倒谱系数以生成训练用数据文件；根据所述训练用数据文件并采用逐层预训练的方式得到深层神经网络中每一层的初始权值；根据深层神经网络中所有层的初始权值并采用BP算法获取所述深层神经网络的哭声模型；采集待识别的婴儿啼哭声数据，提取待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数；根据待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数和所述哭声模型进行哭声识别，能够提高对婴儿啼哭声的识别率。

技术领域

本发明涉及一种基于深层神经网络的婴儿啼哭声识别方法及系统。

背景技术

婴儿啼哭声识别的研究自上个世纪六七十年代就已出现，限于之前的技术水平和数据规模，有应用前景的产品和技术不多，少量面市的产品也大多存在识别性能不可靠、技术含量低等缺点。这一方面是由于历史上婴儿啼哭声数据采集和标注的规模较小，有的甚至只有几十段音频，通常只能对差异度特别大的哭声类型进行有效识别，如健康婴儿和聋儿哭声的识别，难以充分挖掘婴儿啼哭声背后的规律，对更多状态的区分可靠性不高；另一方面是由于之前做婴儿哭声识别多是采用普通神经网络模型，普通神经网络的建模能力有限，不能充分对婴儿啼哭声建模，因而对有限状态的识别率也不高，很少有成功应用。

发明内容

本发明的目的在于提供一种基于深层神经网络的婴儿啼哭声识别方法及系统，能够提高对婴儿啼哭声的识别率。

为解决上述问题，本发明提供一种基于深层神经网络的婴儿啼哭声识别方法，包括：

采集训练用婴儿啼哭声数据；

对所述训练用婴儿啼哭声数据进行分类标注；

提取每一个分类标注的训练用婴儿啼哭声数据中每段音频的梅尔域倒谱系数以生成训练用数据文件；

根据所述训练用数据文件并采用逐层预训练的方式得到深层神经网络中每一层的初始权值；

根据深层神经网络中所有层的初始权值并采用BP算法获取所述深层神经网络的哭声模型；

采集待识别的婴儿啼哭声数据，提取待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数；

根据待识别的婴儿啼哭声数据中每段音频的梅尔域倒谱系数和所述哭声模型进行哭声识别。

进一步的，在上述方法中，对所述训练用婴儿啼哭声数据进行分类标注的步骤之前还包括：

对所述训练用婴儿啼哭声数据进行剔除噪音和背景说话声的预处理。