[发明专利]增强包含语音的音频数据的方法、计算装置和介质有效

申请号：	201710384118.2	申请日：	2017-05-26
公开（公告）号：	CN107464555B	公开（公告）日：	2023-07-28
发明（设计）人：	O·索恩	申请（专利权）人：	索尼移动通讯有限公司
主分类号：	G10L13/08	分类号：	G10L13/08;G10L15/26;G10L25/63
代理公司：	北京三友知识产权代理有限公司 11127	代理人：	吕俊刚;王青芝
地址：	日本***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	增强包含语音音频数据方法计算装置介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种在包括处理器(3、3')的计算装置(1、1')上增强包含语音的音频数据(A)的方法，所述方法由所述计算装置(1、1')中的所述处理器(3、3')执行并且包括以下步骤：

获得特征数据([D])，所述特征数据([D])通过主题和情感中的至少一个来表征所述包含语音的音频数据(A)中的时间段，

针对所述包含语音的音频数据(A)中的相应时间段并且基于所述特征数据([D])，获得将在所述相应时间段被添加到所述包含语音的音频数据(A)的背景声音(B)的期望的属性，以及

提供所述相应时间段的所述期望的属性，以使得能够在所述相应时间段内将所述包含语音的音频数据(A)与具有所述期望的属性的背景声音(B)组合，

其中，获得特征数据([D])的步骤包括：处理所述包含语音的音频数据(A)以提取音频特征；通过基于声学的情感分析算法分析所述音频特征，以确定所述包含语音的音频数据(A)中的至少一个时间段中的语音的情感；以及生成所述至少一个时间段与表示所述情感的情感标识符SID之间的关联。

2.根据权利要求1所述的方法，其中，获得所述期望的属性，以匹配所述相应时间段的主题和/或情感。

3.根据权利要求1或2所述的方法，其中，所述主题表示所述包含语音的音频数据(A)中的所述相应时间段内的口语的内容或话题。

4.根据权利要求1所述的方法，其中，所述特征数据([D])至少部分地通过自动分析所述包含语音的音频数据(A)中的语音来生成。

5.根据权利要求1所述的方法，其中，所述情感表示所述包含语音的音频数据(A)中的所述相应时间段内的口语的情绪，并且包括以下项中的一种或更多种：正面情感、负面情感、中性情感、生气、愉悦、悲伤、惊奇、指责、害怕、焦虑、不悦、厌恶、轻松、渴望、爱、恨、平静、激动和担心。

6.根据权利要求1所述的方法，其中，所述期望的属性至少部分地基于所述相应时间段的情感来获得，并且表示以下项中的一个或更多个：所述背景声音(B)的回放音量、所述背景声音(B)的节拍、所述背景声音(B)的音调和所述背景声音(B)的基调。

7.根据权利要求1所述的方法，其中，所述特征数据([D])还通过文学种类(CID)来表征所述包含语音的音频数据(A)中的所述时间段，并且其中，进一步获得所述期望的属性，以匹配所述相应时间段的所述文学种类(CID)。

8.根据权利要求1所述的方法，其中，获得特征数据([D])的步骤包括：通过自然语言处理来处理所述包含语音的音频数据(A)。

9.根据权利要求1所述的方法，其中，获得特征数据([D])的步骤包括：通过对所述包含语音的音频数据(A)运行语音识别算法来生成与所述包含语音的音频数据(A)相对应的文本(A_T)；将所述文本(A_T)与所述包含语音的音频数据(A)中的时间点相关联；对所述文本(A_T)运行主题划分算法和/或情感分析算法以确定所述文本(A_T)中的主题和/或情感，每个主题和/或情感是针对所述文本(A_T)中的相应文本片段来确定的，所述方法还包括以下步骤：通过确定所述包含语音的音频数据(A)中的与所述文本片段相对应的时间段来生成所述特征数据([D])；以及生成所述时间段与表示所述主题的主题标识符(TID)和/或表示所述情感的情感标识符(SID)之间的关联。

10.根据权利要求9所述的方法，其中，对所述文本运行所述主题划分算法，以关于至少两个不同粒度水平确定所述主题。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于索尼移动通讯有限公司，未经索尼移动通讯有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710384118.2/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]增强包含语音的音频数据的方法、计算装置和介质有效

专利文献下载