[发明专利]进行音频断句的自动拆分方法及系统有效

申请号：	201610799257.7	申请日：	2016-08-31
公开（公告）号：	CN106157951B	公开（公告）日：	2019-04-23
发明（设计）人：	胡飞	申请（专利权）人：	北京华科飞扬科技股份公司
主分类号：	G10L15/04	分类号：	G10L15/04;G10L25/21;G10L21/10
代理公司：	北京市金栋律师事务所 11425	代理人：	朱玲
地址：	100000 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	进行音频断句的自动拆分方法及系统，包括：根据音频获取多个分帧段；根据各分帧段的能量值获取能量阈值，根据所述能量阈值，从所述各分帧段中获取其能量值超过设定能量阈值E_t的分帧段，则以该分帧段为句中间帧对该帧的前序帧或后序帧进行扫描，若前序帧或后序帧的能量阀值小于设定能量阈值E_t，则将该帧与所述句中间帧按帧起始顺序合并成为独立句，之后对每个独立句进行谱熵分析，获取最后的分析句子。从而解决了现有字幕对应过程中，无法进行自动断句的问题。从而，本发明既可以处理已经录制好的音视频，也可以处理正在直播的音视频。对于网络直播流，能够自动的将网络直播语音切割，方便后续环节如听写环节并行处理，加快处理时间。
搜索关键词：	进行音频断句自动拆分方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.进行音频断句的自动拆分方法，包括：步骤S101，根据音频获取多个分帧段；步骤S102，根据各分帧段的能量值获取能量阈值E_k；步骤S103，根据所述能量阈值E_k，从所述各分帧段中获取其能量值超过设定能量阈值E_t的分帧段，则以该分帧段为句中间帧对该帧的前序帧或后序帧进行扫描，若前序帧或后序帧的能量阀值小于设定能量阈值E_t，则将该帧与所述句中间帧按帧起始顺序合并成为独立句；步骤S104，从每个句子的前后两帧分别向前后搜索,如果搜索到的下一帧属于其他句子，则对两个句子进行合并；如果下一帧的能量小于设定能量阈值E_t，且不属于其他句子，则对该帧进行傅立叶变换，取0‑4000HZ的幅值，按照固定宽度分成z条谱带，每条谱带的强度为V_i，i＝1,2,…z，总强度为V_sum，P_i为每条谱带的概率：P_i的计算公式为：则，该帧的谱熵为：每一帧的能量与谱熵的比值为能熵比，记为R，设定一个能熵比阈值R_t，如果该帧的能熵比不小于R_t，则将该帧归到句子中，如果扫描到语音流的开始或结束，扫描中止。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京华科飞扬科技股份公司，未经北京华科飞扬科技股份公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610799257.7/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]进行音频断句的自动拆分方法及系统有效

专利文献下载