[发明专利]增强包含语音的音频数据的方法、计算装置和介质有效
申请号: | 201710384118.2 | 申请日: | 2017-05-26 |
公开(公告)号: | CN107464555B | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | O·索恩 | 申请(专利权)人: | 索尼移动通讯有限公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L15/26;G10L25/63 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 吕俊刚;王青芝 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 增强 包含 语音 音频 数据 方法 计算 装置 介质 | ||
1.一种在包括处理器(3、3')的计算装置(1、1')上增强包含语音的音频数据(A)的方法,所述方法由所述计算装置(1、1')中的所述处理器(3、3')执行并且包括以下步骤:
获得特征数据([D]),所述特征数据([D])通过主题和情感中的至少一个来表征所述包含语音的音频数据(A)中的时间段,
针对所述包含语音的音频数据(A)中的相应时间段并且基于所述特征数据([D]),获得将在所述相应时间段被添加到所述包含语音的音频数据(A)的背景声音(B)的期望的属性,以及
提供所述相应时间段的所述期望的属性,以使得能够在所述相应时间段内将所述包含语音的音频数据(A)与具有所述期望的属性的背景声音(B)组合,
其中,获得特征数据([D])的步骤包括:处理所述包含语音的音频数据(A)以提取音频特征;通过基于声学的情感分析算法分析所述音频特征,以确定所述包含语音的音频数据(A)中的至少一个时间段中的语音的情感;以及生成所述至少一个时间段与表示所述情感的情感标识符SID之间的关联。
2.根据权利要求1所述的方法,其中,获得所述期望的属性,以匹配所述相应时间段的主题和/或情感。
3.根据权利要求1或2所述的方法,其中,所述主题表示所述包含语音的音频数据(A)中的所述相应时间段内的口语的内容或话题。
4.根据权利要求1所述的方法,其中,所述特征数据([D])至少部分地通过自动分析所述包含语音的音频数据(A)中的语音来生成。
5.根据权利要求1所述的方法,其中,所述情感表示所述包含语音的音频数据(A)中的所述相应时间段内的口语的情绪,并且包括以下项中的一种或更多种:正面情感、负面情感、中性情感、生气、愉悦、悲伤、惊奇、指责、害怕、焦虑、不悦、厌恶、轻松、渴望、爱、恨、平静、激动和担心。
6.根据权利要求1所述的方法,其中,所述期望的属性至少部分地基于所述相应时间段的情感来获得,并且表示以下项中的一个或更多个:所述背景声音(B)的回放音量、所述背景声音(B)的节拍、所述背景声音(B)的音调和所述背景声音(B)的基调。
7.根据权利要求1所述的方法,其中,所述特征数据([D])还通过文学种类(CID)来表征所述包含语音的音频数据(A)中的所述时间段,并且其中,进一步获得所述期望的属性,以匹配所述相应时间段的所述文学种类(CID)。
8.根据权利要求1所述的方法,其中,获得特征数据([D])的步骤包括:通过自然语言处理来处理所述包含语音的音频数据(A)。
9.根据权利要求1所述的方法,其中,获得特征数据([D])的步骤包括:通过对所述包含语音的音频数据(A)运行语音识别算法来生成与所述包含语音的音频数据(A)相对应的文本(A_T);将所述文本(A_T)与所述包含语音的音频数据(A)中的时间点相关联;对所述文本(A_T)运行主题划分算法和/或情感分析算法以确定所述文本(A_T)中的主题和/或情感,每个主题和/或情感是针对所述文本(A_T)中的相应文本片段来确定的,所述方法还包括以下步骤:通过确定所述包含语音的音频数据(A)中的与所述文本片段相对应的时间段来生成所述特征数据([D]);以及生成所述时间段与表示所述主题的主题标识符(TID)和/或表示所述情感的情感标识符(SID)之间的关联。
10.根据权利要求9所述的方法,其中,对所述文本运行所述主题划分算法,以关于至少两个不同粒度水平确定所述主题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼移动通讯有限公司,未经索尼移动通讯有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710384118.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:多音阶鼓琴
- 下一篇:月饼包装盒(秋韵1)