[发明专利]一种基于人声识别技术辅助现场录制编目方法有效
| 申请号: | 202010787326.9 | 申请日: | 2020-08-07 |
| 公开(公告)号: | CN111901549B | 公开(公告)日: | 2023-03-24 |
| 发明(设计)人: | 纪亭;杨煜红;高铁铸;吴奕刚;王伟明 | 申请(专利权)人: | 杭州当虹科技股份有限公司 |
| 主分类号: | H04N5/91 | 分类号: | H04N5/91;G10L17/00;G10L17/02 |
| 代理公司: | 杭州橙知果专利代理事务所(特殊普通合伙) 33261 | 代理人: | 贺龙萍 |
| 地址: | 310012 浙江省杭州市西*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 人声 识别 技术 辅助 现场 录制 编目 方法 | ||
1.一种基于人声识别技术辅助现场录制编目方法,其特征是,具体包括如下步骤:
(1)在彩排阶段,通过彩排的预演获取大量的参演人员的声音素材文件,以这些声音素材文件为样本作为音频采集模块获取的原始声音素材,并提交到特征抽取模块;
(2)特征抽取模块依据样本数据,基于声纹识别的算法生成对应原音的声音素材的特征信息,并根据现场的操作人员将参演人员的信息和提取的特征信息进行关联,并保存到参演人员特征库中;
(3)实际现场录制时,实际录制过程中产生大量的声音素材文件,将这些声音素材文件调用特征抽取模块,生成对应这些声音素材的特征信息,并将这些特征信息与之前彩排时生成的参演人员特征库的数据信息进行比对;当出现声音素材的特征信息与参演人员特征库的数据信息不匹配时,意味着采集设备对应收录人员变更,则进行二分法排查:前向二分查询,通过对前一个通过比对样本区段到当前出现异常的样本区段的两者间间隔中,再进一步抽取样本,进一步特征比对,并递归处理,确认到出现特征异常的首个声音片段;同时进行后向二分查询,对当前出现异常的样本区段,以及之后的样本,参照前向二分查询比对定位的方式,对后向的片段也进行查询比对定位,后台系统将所有查询的结果,也就是识别后的不同特征对应的参演人员和对应时间片段信息,通过图示的方式,反馈给操作人员,最后由人工介入,最终确认素材内容;
(4)将匹配的特征信息的对应参演人员信息提取后,通过标记声音素材文件操作将对应声音素材文件信息加入参演人员信息;
(5)将所有录制过程中的媒体信息中的声音素材,在录制过程中都导入依次通过音频采集模块和特征抽取模块生成声音素材的特征信息进行比对关联,当录制完成时在录制完成的素材中的声音素材信息将会附带参演人员的信息。
2.根据权利要求1所述的一种基于人声识别技术辅助现场录制编目方法,其特征是,在步骤(2)中,声纹识别是根据语音中所蕴含的说话的个性特征去识别该段语音说话对象的身份的过程,声纹识别便是将声信号转换成电信号,再用计算机进行识别的技术。
3.根据权利要求1所述的一种基于人声识别技术辅助现场录制编目方法,其特征是,在步骤(4)中,标记声音素材文件操作具体为:先对声音素材进行预处理,将整个素材进行音量标记处理,也就是把素材中检查到有采集到声音音量,通过预设的阈值,对素材中音量超过标定的阈值的区段进行标记,然后通过固定间隔时长的方式,对最接近标记的素材区段进行样本识别,通过固定间隔时长抽取样本的方式,对素材进行特征比对。
4.根据权利要求1或2或3所述的一种基于人声识别技术辅助现场录制编目方法,其特征是,声音素材的特征信息包括共鸣方式特征、嗓音纯度特征、平均音高特征和音域特征;共鸣方式特征指的是咽腔共鸣、鼻腔共鸣和口腔共鸣;嗓音纯度特征分为高纯度、低纯度和中等纯度三个等级;平均音高特征指的是嗓音的高亢与低沉;音域特征指的是声音饱满与干瘪。
5.根据权利要求1或2或3所述的一种基于人声识别技术辅助现场录制编目方法,其特征是,由于不同参演人员的声音在波形语谱图中共振峰的分布情况不同,声纹识别正是通过比对两段语音的说话人在相同音素上的发声来判断是否为同一个参演人员。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州当虹科技股份有限公司,未经杭州当虹科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010787326.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于神经网络的运动数据重定向方法
- 下一篇:汽车中后桥壳加工工艺





