[发明专利]用于声学特征的同步修改的方法和装置有效
| 申请号: | 200680003410.5 | 申请日: | 2006-01-26 |
| 公开(公告)号: | CN101111884A | 公开(公告)日: | 2008-01-23 |
| 发明(设计)人: | 菲利普·J.·布卢姆;威廉·J.·埃尔伍德;乔纳森·纽兰德 | 申请(专利权)人: | 森阔艺术有限公司 |
| 主分类号: | G10H1/36 | 分类号: | G10H1/36 |
| 代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 康建忠 |
| 地址: | 英国*** | 国省代码: | 英国;GB |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 声学 特征 同步 修改 方法 装置 | ||
技术领域
本发明涉及信号修改。更具体地说,但并非排他性地,本发明涉及在基于其它数字化声音信号中的特征修改一数字化声音信号过程中出现的问题,其中,第一声音信号和第二声音信号的对应的特征在各个信号中不出现在时间上相同的相对位置。
背景技术
公知的是,难以随着音频或音频/视频片段进行演讲或演唱,使得新的表演是原来的演员或歌手的话语的恰好被同步地重复。因此,新的表演的记录很不可能使其开始和细节的声学特性与原唱音频音轨同步。相似地,诸如新的歌手的音调(pitch)的特征可能不如原唱歌手精确或复杂地改变。在专业音频记录产业和消费者基于计算机的游戏和活动中存在许多情况,其中,声音记录包括语音,新记录话音的音乐音调将受益于音调调整,通常意味着校正,以使其与原唱语音记录合拍。此外,即使普通业余演唱的记录合拍,也将不具有专业歌手的熟练的发音方式和音调变化。
图4显示对相同音乐音轨演唱相同词语的大众成员的音调测量(新的音调402)和专业歌手的音调测量(向导音调401)。语音化的信号(非零Hz音调值)的对应的部分(脉冲)的开始和结束之间的定时差异以及非语音化或静默部分(处于零Hz)的位置的定时差异是频繁且显著的。在相同的相对时间直接将来自向导音调401的音调数据应用于新的音调402的数据是明显错误的,并且不适合于所示段的真实量。这是典型的结果,并且示出待解决的基本问题。
可以通过商业可用的硬件和软件设备,自动将音乐的逐音高的音调调整应用于记录的或实况演唱,所述商业可用的硬件和软件设备通常将到来的音高调谐到可接受的音高音调的指定的固定栅格。在这样的系统中,可以自动校正每一输出音高,但因为该方法可能移除自然的和期望的“真人”变调,因此可能经常导致不可接受的或不好的结果。
在这样的已知软件和硬件设备中的目标音调识别的基本基础是音乐的音阶升降,其基本地是那些特定音高频率的列表,设备应该首先比较输入信号和所述特定音高频率。多数设备有用于标准音阶升降的预设音乐音阶升降,并允许对其进行定制,例如以改变目标音调或保留未改变的特定音调化的音高。
可以将已知软件设置为自动模式,这也是通常硬件设备如何工作:设备检测输入音调,在用户指定的预设音阶升降中识别最接近的音阶升降音高,并改变输入信号,从而输出音调匹配于指定的音阶升降音高的音调。输出音调回旋或重调音到目标音调的速率(有时描述为“速度”)被控制以帮助更精确和更自然地维持自然音调轮廓(即作为时间的函数的音调),并允许“风格”的较大的变化。
然而,所记录的业余的演唱不能通过这样的已知自动调整技术而被增强以实现在专业歌手的表演中找到的复杂和熟练的音调变调。
还存在通过使用目标语音或其它存储的目标语音参数数据的序列执行音调校正和/或其它发音修改以指定期望的修改的已知语音处理方法和系统。这些已知方法具有一个或多个明显的缺点。例如:
1、被严格地应用于用户的输入语音信号的目标音调(或其它发音特征)采用卡拉OK音轨的定时或用户通常实时演唱的其它这样的伴奏,并且不尝试校准对应的发音特征(美国专利5966687,日本专利2003044066)。如果用户的语音相对于目标特征(例如音调)数据的定时开始太早,则目标特征将被错误地应用于稍后的词句或音节。如果用户的语音较晚,则出现相似的问题。在乐句中,具有音乐音轨的不符合时间的词句或音节将被分配错误的音调或用于所述词句或音节的其它特征。相似地,当期望非语音化的段时出现的任意语音化的段不接收存储的目标音调或其它目标特征信息。
2、应用于用户的输入语音的目标音调(或其它发音特征)依赖并采用输入的音素或相似地语音化/非语音化模式或仅仅元音的期望的存储的序列(例如美国5750912)。这些方法通常需要用户训练或输入音素数据的固定特性和/或需要充分接近用于精确识别的相同词句的发音出现。如果不存在训练并且用户的音素设置充分不同于将不识别的所存储的设置,则系统将不正确地运作。如果没有将用户的音素保持足够长,或保持太短,则输出音高可能被截断或切断。如果音素到达太早或太晚,则音调或特征可能应用于正确的音素,但其将脱离音乐伴奏的时间。如果用户发出错误的音素,则系统可能很容易无法保持匹配。此外,在歌曲中,单个音素通常被给定多个和/或连续音调的范围,在这样的音调上,基于音素的系统将不可能实现正确的音调或特征改变。精确的音素识别还需要非零处理时间,这在实时系统中将延迟正确的特征的应用。非发音的声音(例如笛子)不能被用作向导信号或输入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于森阔艺术有限公司,未经森阔艺术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680003410.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:缝纫机针折断检测装置
- 下一篇:透射光量可变的元件和投射显示器





