[发明专利]一种基于作业现场的音频数据结构化转化方法在审
申请号: | 202110801449.8 | 申请日: | 2021-07-15 |
公开(公告)号: | CN113535954A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 王天师;李华;刘文韬;罗其锋;张春梅;谭伟;谭莹莹;包达志;魏俊锋;黄国柱 | 申请(专利权)人: | 广东电网有限责任公司中山供电局 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/31;G06F16/61;G06F16/65;G10L25/24 |
代理公司: | 广州海心联合专利代理事务所(普通合伙) 44295 | 代理人: | 黄为;莫秀波 |
地址: | 528405 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 作业 现场 音频 数据结构 转化 方法 | ||
本发明公开了一种基于作业现场的音频数据结构化转化方法,涉及音频数据技术领域,解决现有音频分析产品精度差的技术问题,方法包括:获取电力作业现场环境中的原始音频;利用梅尔倒谱系数MFCC对原始音频进行特征提取得到MFCC特征;利用入狄利克雷过程高斯混合模型DPGMM对原始音频进行处理得到DPGMM后验图;将DPGMM后验图与MFCC特征连接起来作为原始音频的音频结构化的增强特征,并得到语音文本;利用Catboost算法对语音文本进行多标签分类得到多标签分类信息;将多标签分类信息存入数据库,以方便后续的关键字检索以及更深入的音频分析。本发明通过MFCC‑DPGMM对音频数据进行特征提取,用Catboost算法进行音频文件多标签处理,实现对音频数据的结构化处理,分析精度好。
技术领域
本发明涉及音频数据技术领域,更具体地说,它涉及一种基于作业现场的音频数据结构化转化方法。
背景技术
在电力行业中,随着能源互联网、智能电网、泛在电力物联网的建设和发展,各种网络拓扑变得更加复杂。特别在电力作业现场智能化监控上,现场语音等音频数据被广泛地进行采集,因此也产生了海量的音频数据。但目前电力作业现场的音频采集分析系统仅实现了数据采集,海量音频需要耗费大量的人工来进行处理和分析,同时存在无法智能音频数据挖掘、无法有效表达与管理和高效检索等弊病。如何提取音频中的结构化信息和内容语义是音频信息深度处理、基于内容的音频检索以及辅助视频分析等应用的关键。
现有技术的缺陷和不足:
电力作业现场的音频数据主要以语音数据为主,所以作业现场音频数据的结构化也应该以语音内容为基础。虽然近几年出现了一些基于音频智能分析产品作为人工筛查分析的有力补充,但缺乏大规模应用的标准,分析精度差,作用十分有限。
发明内容
本发明要解决的技术问题是针对现有技术的上述不足,本发明的目的是提供一种分析精度高的基于作业现场的音频数据结构化转化方法。
本发明的技术方案是:一种基于作业现场的音频数据结构化转化方法,包括:
获取电力作业现场环境中的原始音频;
利用梅尔倒谱系数对所述原始音频进行特征提取得到MFCC特征;
利用入狄利克雷过程高斯混合模型对所述原始音频进行处理得到DPGMM后验图;
将所述DPGMM后验图与MFCC特征连接起来作为所述原始音频的音频结构化的增强特征,并得到语音文本;
利用Catboost算法对所述语音文本进行多标签分类得到多标签分类信息;
将所述多标签分类信息存入数据库,以方便后续的关键字检索以及更深入的音频分析。
作为进一步地改进,在所述入狄利克雷过程高斯混合模型中采用无限高斯混合模型:
其中,p(xi|μk,∑k)为高斯分布的概率密度函数,πk为对应高斯分布的混合权重参数,权重值为正数,上式可以写成:
采用折棍子模型(Stick Breaking)对混合权重进行采样取值,对高斯分布的均值和方差取自正态-逆-Wishart(NIW)分布NIW(μ0,λ,∑0,ν);
其中,均值置信度为μ0、方差置信度为∑0、均值置信度为λ和方差置信度为v;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网有限责任公司中山供电局,未经广东电网有限责任公司中山供电局许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110801449.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种仓库规划方法及系统
- 下一篇:一种凸轮轴强化处理工艺