[发明专利]用于基于语音的音频和文本对齐的系统和方法在审
| 申请号: | 202110658488.7 | 申请日: | 2021-06-15 | 
| 公开(公告)号: | CN113112996A | 公开(公告)日: | 2021-07-13 | 
| 发明(设计)人: | 周昌印;余飞 | 申请(专利权)人: | 视见科技(杭州)有限公司 | 
| 主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/26 | 
| 代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 巫资青 | 
| 地址: | 310000 浙江省杭州市余杭*** | 国省代码: | 浙江;33 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 用于 基于 语音 音频 文本 对齐 系统 方法 | ||
本公开涉及用于基于语音的音频和文本对齐的系统和方法。更具体地,本公开涉及用于在时间上对齐媒体元素的系统和方法。示例性方法包括基于音频输入提供音频输入波形以及接收文本输入。示例性方法还包括将文本输入转换成文本转语音输入波形,以及利用音频特征提取器从音频输入波形和文本转语音输入波形提取特有音频特征。示例性方法还包括比较音频输入波形特征与文本转语音波形特征,以及基于该比较,在时间上对齐文本输入的显示版本与音频输入。
技术领域
本申请涉及用于基于语音的音频和文本对齐的系统和方法。
背景技术
各种媒体元素(例如,语音、文本、图像等)的时间对齐对于各种仅音频和/或音频/视觉应用而言可能很重要。例如,在口头演示中,(例如,来自演示者的语音的)音频和(例如,来自所显示演示脚本的)文本的时间对齐可能会驱动如下功能,包括:(1)提供响应性的呈现文本提示和/或提醒;(2)响应于在脚本中达到预定义时间和/或触发等而自动发起动态效应和事件。一些常规时间媒体对齐方法基于文本对齐解决了这个问题。例如,常规方法首先将音频输入转录成文本,然后应用文本到文本对齐算法。不过,这样的方法可能会经历转录错误,尤其是对于具有混合语言、技术/专业语言或数字、日期等的文字和语句。在发音相同(例如,同音词)的不同文本词语(具有不同含义)和/或相同但具有不同发音(具有关联的不同含义)的文本词语的情况下,这样的方法也可能产生错误。因此,期望有改进的方式来在时间上对齐媒体元素。
发明内容
本公开描述了提供与音频输入(例如,讲话者的语音)在时间上对齐的文本提示(例如,显示的文本脚本)的系统和方法。这样的时间对齐基于音频输入的特定特征(例如,语音特性)而不是通过语音转文本转录使用直接文本匹配的技术。这样的系统和方法可以大大地提高对齐速度、精确度和稳定性。
在第一方面中,描述了一种系统。该系统包括被配置成接收音频输入并提供音频输入波形的麦克风,以及被配置成接收文本输入的文本输入接口。该系统还包括音频特征生成器,所述音频特征生成器包括被配置成将文本输入转换成文本转语音输入波形的文本转语音模块。该系统还包括音频特征提取器,所述音频特征提取器被配置成从音频输入波形和文本转语音输入波形提取特有音频特征。该系统还包括对齐模块,对齐模块被配置成比较音频输入波形特征与文本转语音波形特征,以便在时间上对齐文本输入的显示版本与音频输入。
在第二方面中,描述了一种方法。该方法包括基于音频输入提供音频输入波形以及接收文本输入。该方法还包括将文本输入转换成文本转语音输入波形,以及利用音频特征提取器从音频输入波形和文本转语音输入波形提取特有音频特征。该方法还包括比较音频输入波形特征和文本转语音波形特征。该方法额外地包括:基于所述比较,在时间上对齐文本输入的显示版本与音频输入。
通过阅读以下具体实施方式并在适当情况下参考附图,这些以及其他实施例、方面、优点和替代形式对于本领域的普通技术人员将变得显而易见。此外,应当理解,本文提供的本发明内容和其他描述和附图意在仅通过举例的方式例示实施例,因此,很多变化都是可能的。例如,结构元件和过程步骤可以被重新布置、组合、分布、消除或以其它方式变化,同时保持在如所主张的实施例的范围之内。
附图说明
图1示出了根据示例性实施例的系统。
图2示出了根据示例性实施例的操作场景。
图3示出了根据示例性实施例的操作场景。
图4示出了根据示例性实施例的操作场景。
图5示出了根据示例性实施例的方法。
具体实施方式
本文描述示例性方法、装置和系统。应当理解,词语“示例性”和“示范性”在本文中用于意指“用作示例、实例或者例示”。本文被描述为“示例性”或“示范性”的任何实施例或特征未必要被理解为相比其他实施例或特征是优选或有利的。可以利用其他实施例,并可以做出其他更改,而不脱离本文给出的主题的范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于视见科技(杭州)有限公司,未经视见科技(杭州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110658488.7/2.html,转载请声明来源钻瓜专利网。





