[发明专利]检测调域值的方法和装置有效

申请号：	201810697966.3	申请日：	2018-06-29
公开（公告）号：	CN108922516B	公开（公告）日：	2020-11-06
发明（设计）人：	张劲松;张微;张琦;林举;解焱陆	申请（专利权）人：	北京语言大学
主分类号：	G10L15/06	分类号：	G10L15/06;G10L25/03;G10L25/18;G10L25/51
代理公司：	北京市广友专利事务所有限责任公司 11237	代理人：	张仲波
地址：	100083***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	检测调域值方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种检测调域值的方法，其特征在于，包括：

获取频谱特征和调域值，其中，所述频谱特征是与音质有关的频谱参数，所述调域值是调域高度值和调域宽度值；其中，所述调域高度值用话者所有语音基频点的均值代表，所述调域宽度值用话者所有语音基频点的标准差代表；

根据所述频谱特征和所述调域值通过长短时记忆模型训练预测模型，其中，所述预测模型是所述频谱特征和所述调域值建立的映射关系；所述长短时记忆模型的模型深度是待预测语音的长度，其包含三个LSTM层，每层有20或32或64个记忆细胞，所述长短时记忆模型的输出层使用KERAS工具中的Dense层，为了实现回归功能，该Dense层只有一个节点；所述长短时记忆模型的输入为频谱特征，输入给第一个LSTM层，再经过两层LSTM后，传给所述Dense层，即输出层，输出的结果即为调域的高度值；

输入待检测频谱特征利用所述预测模型获得待检测调域值，其中，所述待检测调域值与待检测频谱特征相对应，所述待检测频谱特征是从话者的待预测语音中截取。

2.根据权利要求1所述的方法，其特征在于，获取所述频谱特征和所述调域值包括：通过语料数据库获取所述频谱特征和所述调域值。

3.一种检测调域值的装置，其特征在于，包括：

获取单元，用于获取频谱特征和调域值，其中，所述频谱特征是与音质有关的频谱参数，所述调域值是调域高度值和调域宽度值；其中，所述调域高度值用话者所有语音基频点的均值代表，所述调域宽度值用话者所有语音基频点的标准差代表；

训练单元，用于根据所述频谱特征和所述调域值通过长短时记忆模型训练预测模型，其中，所述预测模型是所述频谱特征和所述调域值建立的映射关系；所述长短时记忆模型的模型深度是待预测语音的长度，其包含三个LSTM层，每层有20或32或64个记忆细胞，所述长短时记忆模型的输出层使用KERAS工具中的Dense层，为了实现回归功能，该Dense层只有一个节点；所述长短时记忆模型的输入为频谱特征，输入给第一个LSTM层，再经过两层LSTM后，传给所述Dense层，即输出层，输出的结果即为调域的高度值；

检测单元，用于输入待检测频谱特征利用所述预测模型获得待检测调域值，其中，所述待检测调域值与待检测频谱特征相对应，所述待检测频谱特征是从话者的待预测语音中截取。

4.根据权利要求3所述的装置，其特征在于，所述获取单元还包括：第一获取模块，用于通过语料数据库获取所述频谱特征和所述调域值。

5.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序执行权利要求1至2中任意一项所述的方法。

6.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至2中任意一项所述的方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京语言大学，未经北京语言大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810697966.3/1.html，转载请声明来源钻瓜专利网。

上一篇：语音模型训练方法、语音识别方法、装置、设备及介质
下一篇：训练盲源分离模型的方法、装置及存储介质

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]检测调域值的方法和装置有效

专利文献下载