[发明专利]将声音和人工转录文本进行同步的系统和方法有效

申请号：	200680031279.3	申请日：	2006-08-18
公开（公告）号：	CN101253549A	公开（公告）日：	2008-08-27
发明（设计）人：	A·纽巴彻;M·帕佩	申请（专利权）人：	皇家飞利浦电子股份有限公司
主分类号：	G10L15/26	分类号：	G10L15/26;G06F17/24
代理公司：	中国专利代理(香港)有限公司	代理人：	李亚非;谭祐祥
地址：	荷兰艾***	国省代码：	荷兰;NL
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	声音人工转录文本进行同步系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明总体涉及声音的人工转录(transcription)，尤其涉及人语音的人工转录。更特殊地，本发明涉及例如为了校正的目的，考虑到随后对声音和文本数据的同步回放(playback)，将声音数据和文本数据进行同步，该文本数据是通过在声音数据的回放过程中，对声音数据进行人工转录而获得的。

背景技术

当声音，例如人的语音，通过语音识别系统自动转录为文本时，通常可以容易地将下文称为文本基准数据(datum)的每个单词或甚至更小的词汇子单元与相应的声音片断(也称作声音基准数据)关联起来，例如通过自动地将从声音数据中导出的定时数据包括到由语音识别系统生成的文本文件中。该定时数据然后可用于直接访问对应于给定声音基准数据的文本基准数据，反之亦然。尤其在通常已知的诸如同步回放的特征中需要这种关联，其中将文本片断(文本基准数据)，诸如对应于当前播放的声音片断的单词或音节，例如通过显示器上对所述的文本片断进行高亮显示而显示给用户。这个特征对于校正转录以及回顾(review)和质量保障是尤其有用的，其中所述转录是通过语音识别建立的。

然而，当声音是人工转录时，由于现今语音识别系统众所周知的不完备而经常是这种情况，例如，当处理较差质量的声音数据或非常专业的行话时，这种关联通常不能够自动得到。因此，现有技术中，必须通过用几毫秒级别的精度来标记声音片断，并随后进入相应文本来人工完成对文本和声音的同步。这种方法十分耗时，因此在花费方面存在很大问题。然而，它构成了一种用于进一步分析的转录的重要特征，例如在心理学、营销学等领域中。Bainbridge，D.和Cunningham，S.J.在“making oral history accessible over the World Wide Web”，History and Computing，Vol.10，no.1-3，pp.73-81(1998)中发表了相似的方法。

因此，本领域需要能够成本高效地将声音和文本进行同步，其中所述文本与声音数据的人工转录相联系。

本发明的目标是提供一种将声音数据和文本数据进行同步的方法，所述文本数据是通过在声音数据的回放过程中，对所述声音数据进行人工转录而获得的，该方法消除了上述缺点。本发明的另一个目标是提供一种对声音数据和相应文本数据进行同步回放的方法，其包括了将声音数据和文本数据进行同步的独创性方法，因此消除了现有技术中同步回放专门保留给使用语音识别的系统的共有缺陷。并且，本发明为了实现其目标，必须提供一种适用于将上述相应独创性方法转换为动作(action)的系统。

发明内容

根据本发明的第一方面，提供了一种将声音数据和文本数据进行同步的方法，所述文本数据是通过在声音数据的回放过程中，对所述声音数据进行人工转录而获得的，该方法包括重复地执行如下步骤：查询(query)所述声音数据和所述文本数据，以便获得对应于当前播放的声音基准数据的当前时间位置和当前转录的文本基准数据，通过应用与转录延迟相一致的时间校正值来校正所述当前时间位置，并生成至少一个关联基准数据，其中所述关联基准数据指示所述经校正的时间位置与所述当前转录的文本基准数据之间的同步关联。

这里和后面的说明书中，术语“声音数据”是指已经被记录并随后存储的音频数据，例如人的语音，优选地被存储为适当数字数据格式的数据文件，以便于用户，特别是秘书进行随后的人工转录(转录)，秘书收听可从声音数据重新生成的声音，并且通常通过键盘，以字符流的形式输入(键入)对应于声音的文本。在该上下文中，术语“声音基准数据”是指声音数据的片断，最小的可能的声音基准数据是单个声音数据位。

相应地，术语“文本数据”是指在转录会话期间输入的文本，即一连串字符，其优选地还被存储为适当数字数据格式的数据文件。在该上下文中，术语“文本基准数据”是指文本数据的片断，最小的可能的文本基准数据显然是单个的文本数据位，即单个的文本字符。

术语“回放”是指生成对应于任意一种上述类型数据的相应输出的行为，例如，通过适当的输出系统，例如声卡和相关联的扬声器系统，或者通过在显示屏上显示对应于文本数据的文本，从声音数据生成用户可察觉的听得见的物理声音。在声音数据的回放期间，要被播放的给定声音基准数据对应于声音数据中的“时间位置”，即从其中导出的音频流。例如，给定声音基准数据的时间位置可以指示所述声音基准数据从音频流的开头被测量的开始时间。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于皇家飞利浦电子股份有限公司，未经皇家飞利浦电子股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200680031279.3/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]将声音和人工转录文本进行同步的系统和方法有效

专利文献下载