首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种音频处理的方法、装置、可读存储介质和电子设备在审

申请号：	202110287746.5	申请日：	2021-03-17
公开（公告）号：	CN113113047A	公开（公告）日：	2021-07-13
发明（设计）人：	陈昌儒;张伟宇;徐培来;杨惠	申请（专利权）人：	北京大米科技有限公司
主分类号：	G10L25/63	分类号：	G10L25/63;G10L25/27;G10L25/30;G10L25/90;G10L21/013
代理公司：	北京睿派知识产权代理事务所(普通合伙) 11597	代理人：	刘锋;杨春晓
地址：	100142 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种音频处理方法装置可读存储介质电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种音频处理的方法，其特征在于，该方法包括：

获取第一音频；

确定所述第一音频的第一情感类别；

响应于所述第一情感类别与所述第一音频对应的第二情感类别不同，根据所述第二情感类别修改所述第一音频的音调，生成第二音频。

2.如权利要求1所述的方法，其特征在于，所述第一音频对应的第二情感类别根据情感预测模型预先确定的。

3.如权利要求1所述的方法，其特征在于，所述第一音频对应的第二情感类别为预先设置的。

4.如权利要求1所述的方法，其特征在于，所述根据情感预测模型预先确定的所述第一音频对应的第二情感类别，具体包括：

将所述第一音频的起始时刻之前设定时长的历史音频输入到自动语音识别模型，输出所述历史音频对应的文本信息，其中，所述历史音频用于预测所述第一音频的第二情感类别；

将所述文本信息输入到语义分析模型，输出所述文本信息对应候选情感类别；

将所述候选情感类别与所述历史音频之前N段音频对应的历史情感类别输入到情感预测模型，输出所述第一音频对应的第二情感类别，其中，N为大于或等于1的正整数。

5.如权利要求1所述的方法，其特征在于，所述情感类别包括愉快、悲伤、平淡、厌烦、惊讶以及生气中的至少一项。

6.如权利要求1所述的方法，其特征在于，所述确定所述第一音频的第一情感类别，具体包括：

根据高斯混合模型GMM或者深度神经网络模型，确定所述第一音频的第一情感类别。

7.如权利要求1所述的方法，其特征在于，所述根据所述第二情感类别修改所述第一音频的音调，生成第二音频，具体包括：

通过预先训练的情感转换模型，将所述第一音频的音调从所述第一情感类别修改为所述第二情感类别，生成第二音频，其中，所述情感转换模型为高斯混合模型GMM或者深度神经网络模型，所述第二音频的音调为第二情感类别。

8.如权利要求7所述的方法，其特征在于，所述通过预先训练的情感转换模型，将所述第一音频的音调从所述第一情感类别修改为所述第二情感类别，生成第二音频，具体包括：

确定所述第一音频的至少一个第一情感特征；

根据所述预先训练的情感转换模型将所述至少一个第一情感特征转换为至少一个第二情感特征；

将所述至少一个第二情感特征按照设定方法进行合成，生成第二音频。

9.如权利要求8所述的方法，其特征在于，所述设定方法为波形拼接、以及使用长短期记忆网络LSTM、循环神经网络RNN、Wavenet、或者Fastpitch进行参数合成。

10.如权利要求8所述的方法，其特征在于，所述第一情感特征和所述第二情感特征为矩阵参数。

11.如权利要求8所述的方法，其特征在于，所述情感转换模型的训练过程包括：

获取历史源音频以及历史目标音频，其中，历史源音频的音调与所述历史目标音频的音调的情感类别不同；

根据所述历史源音频确定至少一个第一历史情感特征，以及根据所述历史目标音频确定至少一个第二历史情感特征；

根据所述第一历史情感特征与所述第二历史情感特征训练所述情感转换模型。

12.如权利要求4所述的方法，其特征在于，所述自动语音识别模型包括神经网络模型或者端到端模型。

13.如权利要求4所述的方法，其特征在于，所述语义分析模型包括XGBoost模型、聚类模型或者端到端模型。

14.如权利要求4所述的方法，其特征在于，所述情感预测模型为隐马尔可夫HMM模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京大米科技有限公司，未经北京大米科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110287746.5/1.html，转载请声明来源钻瓜专利网。

上一篇：基于改进Mask R-CNN的自动驾驶目标识别方法
下一篇：无线信号测量方法、无线信号测量装置及存储介质

同类专利

专利分类

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top