[发明专利]一种基于序列分类的特定声音事件检索与定位的方法有效
| 申请号: | 201911363277.X | 申请日: | 2019-12-25 |
| 公开(公告)号: | CN111161715B | 公开(公告)日: | 2022-06-14 |
| 发明(设计)人: | 余春艳;刘煌;吴长轩 | 申请(专利权)人: | 福州大学 |
| 主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/183;G10L19/04;G10L25/18;G10L25/24;G10L25/45 |
| 代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 钱莉;蔡学俊 |
| 地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 序列 分类 特定 声音 事件 检索 定位 方法 | ||
1.一种基于序列分类的特定声音事件检索与定位的方法,其特征在于:包括以下步骤:
步骤S1:选取已经标注完成的含有检索目标事件音源的声音片段分别进行特定声音事件检索模型构建;
步骤S2:对待检索的音源依据40ms为1帧,帧移20ms完成分帧,逐帧提取梅尔能量特征;61帧为1个声音片段,将待检索的音源依据1.2秒为1个片段,片段位移20ms完成分段,得到若干声音片段后,逐片段输入到特定声音事件检索模型中,得到每个声音片段的特定声音事件的检索结果;
步骤S3:检索每一帧中特定声音事件是否存在;
步骤S4:对S3得到的每帧检索结果进行平滑处理;
步骤S5:平滑处理后会输出给定音频文件中包含的声音事件出现起止时间的标注结果的集合,即得到需检索音源中包含的所有声音事件和每个声音事件对应的起止时间,如此得到完整的检索和定位信息;
所述步骤S1具体包括以下内容:
步骤S11:将所需检测的声音事件的训练数据集中的音源按照40ms为一帧,帧移20ms,一块为61帧完整分帧、分块,得到N个声音片段;逐帧计算其123维梅尔能量特征;
步骤S12:将每个声音片段的61帧梅尔能量特征输入到特定声音事件检索模型进行学习;
所述步骤S12的具体内容为:首先,通过卷积层提取每帧的深层特征,将深层特征输入双向GRU层提取更加抽象的深层特征;然后将GRU网络得到的结果输入到Flatten层中做扁平化处理后输入到注意力层,所述注意力层包括分类注意力和回归注意力,再输入到分类和回归层,根据声音片段的标注真值,使用分类损失和回归损失,并且将两个损失联合起来做多任务损失学习;
所述使用分类损失和回归损失,并且将两个损失联合起来做多任务损失学习的具体内容为:
由于定位任务的加入,对于给定的每一声音帧,其标注数据不仅需要包含声音事件类标签还需要给出其定位信息;给定声音片段S中的帧序列数据S={X1,…,Xi,…,XN}及其真值集合Y={Y1,…,Yi,…,YN},其中,N为数据集大小,总的声音类别集合为C={C0,…,C|C|},C0表示背景声音事件,其余类别为前景声音事件;若Xi为背景事件C0,则Yi={C0};若音频帧Xi中共包含l个前景声音事件,则其中,为声音事件的类别,为该事件在声音片段起始和结束时间位置,和分别表示Xi到和的距离;使用交叉熵损失作为分类损失函数,使用修正余弦相似度ACS作为回归损失函数,最后将两个损失联合起来做多任务损失学习;
构造多任务损失函数:交叉熵结合修正余弦相似度构成的余弦多任务损失;
对于使用MCL损失函数的模型,其训练过程是最小化如下损失函数:
其中,θ为网络的训练参数,λ用于平衡误差项和l2范数正则化项,Eacos(θ)为修正余弦相似度损失,λacos表示其权重系数;Ecross(θ)表示交叉熵损失,λcross为其权重系数;
Ecross(θ)的计算公式如下:
Eacos(θ)的计算公式如下:
其中是输出层距离平均值,是预测平均值;余弦相似度仅考虑向量维度方向上的相似,没有考虑各个维度量纲的差异性,是归一化后的点积结果;而修正余弦相似度ACS同时考虑了向量维度的方向相似性和量纲差异性,是去中心化和归一化后的点积结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911363277.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种空间X射线光度计
- 下一篇:一种大转子钢铜瞬间液态扩散连接的复合方法





