[发明专利]一种信息处理方法,检索方法及电子设备有效
申请号: | 201510924873.6 | 申请日: | 2015-12-14 |
公开(公告)号: | CN105550308B | 公开(公告)日: | 2019-07-26 |
发明(设计)人: | 徐培来;孙艳庆;汪俊杰 | 申请(专利权)人: | 联想(北京)有限公司 |
主分类号: | G06F16/683 | 分类号: | G06F16/683;G06F16/632 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 吕雁葭 |
地址: | 100085 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息处理 方法 检索 电子设备 | ||
本发明公开了一种信息处理方法,检索方法及电子设备,其中,所述信息处理方法,包括:采集获得M个音频数据,其中,M为正整数;获得所述M个音频数据中每个音频数据对应的目标词汇集合,共获得N个目标词汇集合,其中,每个目标词汇集合包括至少一个目标词汇,N为不小于M的正整数;建立所述M个音频数据与所述N个目标词汇集合间的第一对应关系。用于解决随着音频数据量的增多,现有的针对语音数据检索方法存在效率低的技术问题,实现了针对语音数据检索的检索效率高的技术效果。
技术领域
本发明涉及电子技术领域,特别涉及一种信息处理方法,检索方法及电子设备。
背景技术
随着互联网技术的普及,为了便于用户从因特网上搜集各类信息,出现了各种各样的信息检索方法。比如,基于网页快照、文本等的互联网搜索引擎技术;基于语音标注的小数据量语音标注检索方法;基于语音识别的检索方法。
其中,现有的网页文本搜索引擎技术并不适用于语音数据搜索。即便是采用语音标注检索方法,由于需要人工对用户所的语音内容进行完整的文本内容标注,由用户手动建立音频数据与搜索结果之间的对应关系,从而费时耗力。此外,采用语音识别检索方法中的第一种检索方法,直接将用户输入的语音和数据库中的语音资源进行音频相似度匹配。或者,采用语音识别检索方法中的第二种检索方法,将用户输入的语音通过语音识别转换为文本A,然后遍历数据库,对数据库中的每个音频资源通过语音识别为文本B,并将文本B与文本A进行文本相似度匹配。也就是说,这两种语音识别检索方法均需要在检索时,对数据库中的每条音频记录做音频相似度匹配和识别。
本申请发明人在发明本申请实施例中技术方案的过程中,发现上述现有技术至少存在如下技术问题:
随着音频数据量的增多,现有的针对语音数据检索方法存在效率低的技术问题。
发明内容
本发明实施例提供一种信息处理方法,检索方法及电子设备,用于解决随着音频数据量的增多,现有的针对语音数据检索方法存在效率低的技术问题,实现了针对语音数据检索的检索效率高的技术效果。
一,本申请实施例提供了一种信息处理方法,包括以下步骤:
采集获得M个音频数据,其中,M为正整数;
获得所述M个音频数据中每个音频数据对应的目标词汇集合,共获得N个目标词汇集合,其中,每个目标词汇集合包括至少一个目标词汇,N为不小于M的正整数;
建立所述M个音频数据与所述N个目标词汇集合间的第一对应关系。
可选地,所述获得所述M个音频数据中每个音频数据对应的目标词汇集合,共获得N个目标词汇集合,具体包括:
对所述M个音频数据进行语音识别,获得L个文本信息,其中,L为不小于M的正整数;
从所述L个文本信息中确定出符合预设条件的P个文本信息,其中,P为不大于L的正整数;
对所述P个文本信息中的每个文本信息进行文本分析,获得所述N个目标词汇集合。
可选地,所述从所述L个文本信息中确定出符合预设条件的P个文本信息,具体包括:
确定所述L个文本信息对应的L个置信度数值;
基于所述L个置信度数值,从所述L个文本信息中确定出置信度数值大于预设值的P个文本信息。
可选地,在所述采集获得M个音频数据之后,所述方法还包括:
获得所述N个目标词汇集合中用于表征每个目标词汇集合的属性信息集合,共获得N个属性信息集合;
建立所述M个音频数据,所述N个目标词汇集合,与所述N个属性信息集合间的第二对应关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联想(北京)有限公司,未经联想(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510924873.6/2.html,转载请声明来源钻瓜专利网。