[发明专利]一种音频获取方法及装置在审
申请号: | 201711093678.9 | 申请日: | 2017-11-08 |
公开(公告)号: | CN107863112A | 公开(公告)日: | 2018-03-30 |
发明(设计)人: | 郭建辉 | 申请(专利权)人: | 天脉聚源(北京)传媒科技有限公司 |
主分类号: | G10L25/78 | 分类号: | G10L25/78;G10L25/87;G10L25/57 |
代理公司: | 北京尚伦律师事务所11477 | 代理人: | 张亮 |
地址: | 100007 北京市东城区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 获取 方法 装置 | ||
技术领域
本发明涉及音频技术领域,特别涉及一种音频获取方法及装置。
背景技术
目前,在很多场景下都会使用到音频识别技术,而相关技术中在从视频中获取音频时,无法确保每次获取的音频都是完整的音频语句或音频段落,这不利于后期进行音频识别。
发明内容
本发明提供一种音频获取方法及装置,用以在从TS(Transport Stream,是日本高清摄像机拍摄下进行的封装格式,全称为MPEG2-TS)碎片视频中提取音频数据时,可根据音频数据的静音长度确定该音频数据中的语句结束位置,进而根据所述语句结束位置,获取目标音频数据,从而确保从碎片视频中获得的目标音频数据为完整的音频语句或者音频段落,以有利于后期进行音频识别。
本发明提供一种音频获取方法,包括:
获取录制的TS碎片视频;
从所述TS碎片视频中提取音频数据;
根据所述音频数据的静音长度确定语句结束位置;
根据所述语句结束位置,获取目标音频数据。
在一个实施例中,在从所述TS碎片视频中提取音频数据之前,所述方法还包括:
将预设数目个TS碎片视频进行合并。
在一个实施例中,所述方法还包括:
将所述语句结束位置之后的剩余语音与下一相邻预设数目个TS碎片视频的音频数据进行合并。
在一个实施例中,所述根据所述音频数据的静音长度确定语句结束位置,包括:
当所述音频数据的静音长度达到预设静音时长时,将不超过预设音频时长所述音频数据的静音开始位置确定为所述语句结束位置。
本发明还提供一种音频获取装置,包括:
第一获取模块,用于获取录制的TS碎片视频;
提取模块,用于从所述TS碎片视频中提取音频数据;
确定模块,用于根据所述音频数据的静音长度确定语句结束位置;
第二获取模块,用于根据所述语句结束位置,获取目标音频数据。
在一个实施例中,所述位置还包括:
第一合并模块,用于在从所述TS碎片视频中提取音频数据之前,将预设数目个TS碎片视频进行合并。
在一个实施例中,所述位置还包括:
第二合并模块,用于将所述语句结束位置之后的剩余语音与下一相邻预设数目个TS碎片视频的音频数据进行合并。
在一个实施例中,所述确定模块包括:
确定子模块,用于当所述音频数据的静音长度达到预设静音时长时,将不超过预设音频时长所述音频数据的静音开始位置确定为所述语句结束位置。
本公开的实施例提供的技术方案可以包括以下有益效果:
在从TS碎片视频中提取音频数据时,可根据音频数据的静音长度确定该音频数据中的语句结束位置,进而根据语句结束位置,获取目标音频数据,而静音长度可指示某段或者某句音频结束了,因而,可确保从碎片视频中获得的目标音频数据为完整的音频语句或者音频段落,以有利于后期进行音频识别。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是根据一示例性实施例示出的一种音频获取方法的流程图。
图2是根据一示例性实施例示出的另一种音频获取方法的流程图。
图3是根据一示例性实施例示出的一种音频获取装置的框图。
图4是根据一示例性实施例示出的另一种音频获取装置的框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
相关技术中,在很多场景下都会使用到音频识别技术,而相关技术中在从视频中获取音频时,无法确保每次获取的音频都是完整的音频语句或音频段落,这不利于后期进行音频识别。
为了解决上述技术问题,本公开实施例提供了一种音频获取方法,该方法适用于音频获取程序、系统或装置中,其执行主体可以是手机、计算机等终端,如图1所示,步骤S101至步骤S104,
在步骤S101中,获取录制的TS碎片视频;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天脉聚源(北京)传媒科技有限公司,未经天脉聚源(北京)传媒科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711093678.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:面向交互的语音语料处理方法及装置
- 下一篇:一种语音上传方法及装置