[发明专利]一种音频检索中构建索引的方法及系统有效
申请号: | 201210031534.1 | 申请日: | 2012-02-13 |
公开(公告)号: | CN103247316A | 公开(公告)日: | 2013-08-14 |
发明(设计)人: | 黄石磊;刘轶;程刚;曹文晓 | 申请(专利权)人: | 深圳市北科瑞声科技有限公司;深港产学研基地产业发展中心;北京大学香港科技大学深圳研修院 |
主分类号: | G11B27/10 | 分类号: | G11B27/10 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 何平 |
地址: | 518057 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 检索 构建 索引 方法 系统 | ||
【技术领域】
本发明涉及多媒体信息处理技术领域,特别涉及一种音频检索中构建索引的方法及系统。
【背景技术】
音频是一种重要的信息载体,音频检索主要是通过关键词,对大量音频信息文件进行搜索,获得相关结果的一种技术。其中关键词可以是文本,可以是音频片断。在基于内容音频检索方式中,需要提取音频文件的特征参数,并生成和语音对应索引,这是一种非常消耗计算资源的操作。
传统技术中的音频检索方法预先在集中式的服务器上建立音频资源库。查询检索客户端获取输入的音频片段或者文本关键词,然后将音频片或者文本关键词段发送到服务器,服务器接收后,根据语音识别算法计算该音频片段的特征码,或者使用文本关键词,在音频样本库中查找与该音频片段的特征码匹配的音频资源,并发送给检索客户端。
然而,虽然可以使用若干台服务器进行共同承担运算任务,传统技术中的音频检索构建索引时主要采用服务器进行集中式处理,主要表现在需要较多的服务器在接收到音频数据后再构建索引。当音频数据较多时,特别是类似呼叫中心每天都产生大量的语音数据环境,构建索引需要耗费大量的服务器计算资源,在业务扩展时,就必须增加服务器,从而增加了扩容时的附加硬件成本,不易于扩容。
【发明内容】
基于此,有必要提供一种用于音频检索,能够易于扩容的构建索引的方法。
一种音频检索中构建索引的方法,包括以下步骤:
音频采集装置获取音频数据;
音频采集装置计算所述音频数据的索引值,并将所述音频数据和所述音频数据的索引值发送给服务器;
服务器根据接收到的所述音频数据和所述音频数据的索引值构建索引。
优选的,所述索引包括与所述音频数据对应的全局标识。
优选的,所述音频采集装置有多个;
所述服务器根据接收到的所述音频数据和所述音频数据的索引值构建索引的步骤具体为:
服务器先过滤掉索引值相同的音频资源,然后根据过滤后的所述音频数据和所述音频数据的索引值构建索引,并将所述音频数据存储到音频资源库中。
优选的,所述音频采集装置计算所述音频数据的索引值的步骤具体为:
音频采集装置对所述音频数据进行预处理,提取声学特征参数;
音频采集装置对所述音频数据进行说话人分割和语音分段;
音频采集装置根据所述声学特征参数、预设的声学模型、语言模型以及发音字典计算所述分段后的音频数据的索引值。
优选的,所述音频采集装置对所述音频数据进行说话人分割和语音分段的步骤还包括:
对所述音频数据中的静默进行检测,将音频分段,并将分段后的音频数据按照说话人类别进行分类。
优选的,所述音频采集装置根据所述声学特征参数、预设的声学模型、语言模型以及发音字典计算所述分段后的音频数据的索引值的步骤具体为:
根据所述分段后的音频数据的语音特征参数、拼音语言模型、声学模型和第一发音字典,通过语音识别解码生成拼音网格;
根据所述拼音网格、基于词的语言模型、第二发音字典生成词网格;
根据所述词网格生成所述分段后的音频数据的索引值。
优选的,所述方法还包括:
检索客户端获取检索请求;
检索客户端判断所述检索请求是否包含音频片段,若是,则从所述检索请求中提取出音频片段并计算该音频片段的索引值,然后发送给服务器;
服务器根据索引值在索引中查找与所述索引值对应的音频数据,并下发给检索客户端。
此外,还有必要提供一种用于音频检索,能够易于扩容的构建索引的系统。
一种音频检索中构建索引的系统,包括音频采集装置和服务器,所述音频采集装置包括:
音频获取模块,用于获取音频数据;
索引值计算模块,用于计算所述音频数据的索引值,并将所述音频数据和所述音频数据的索引值发送给服务器;
所述服务器包括:
索引构建模块,用于服务器根据接收到的所述音频数据和所述音频数据的索引值构建索引。
优选的,所述索引包括与所述音频数据对应的全局标识。
优选的,所述音频采集装置有多个;
所述索引构建模块还用于过滤掉索引值相同的音频资源,根据过滤后的所述音频数据和所述音频数据的索引值构建索引,并将所述音频数据存储到音频资源库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市北科瑞声科技有限公司;深港产学研基地产业发展中心;北京大学香港科技大学深圳研修院,未经深圳市北科瑞声科技有限公司;深港产学研基地产业发展中心;北京大学香港科技大学深圳研修院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210031534.1/2.html,转载请声明来源钻瓜专利网。