[发明专利]利用语者识别的切割音视讯片段的方法有效
申请号: | 201410001020.0 | 申请日: | 2014-01-02 |
公开(公告)号: | CN103730111B | 公开(公告)日: | 2016-11-30 |
发明(设计)人: | 王惇琳;刘继谥;林志荣 | 申请(专利权)人: | 中华电信股份有限公司 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;H04N21/845 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 王茹;曾旻辉 |
地址: | 中国台湾桃*** | 国省代码: | 中国台湾;71 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 识别 切割 视讯 片段 方法 | ||
技术领域
本发明涉及一种切割音视讯信号技术,尤指一种利用语者识别的切割音视讯片段的方法。
背景技术
现今视讯内容来源随着时间渐趋丰富,内容更加多样化,如何从各式各样且大量的视讯内容快速地取得重要的内容已然成为视讯观众日益关注的议题。一般而言,来自电脑网络的视讯内容大多数为经由人工切割的影片片段,较容易满足用户对视讯内容的需求。然为处理大量影音内容,自动切割音视讯技术则更显其重要性。
一般现有自动切割音视讯技术大多利用其视讯讯号,侦测特定影像画面进行分析并分类,进而分割音视讯片段。一种侦测新闻主播的影音特征以将电视新闻分段的方法揭露于台湾发明专利公告号I283375中,如图1所示,包括下列步骤:利用第一水平扫描线来扫描该影像画面的像素,判断该像素的颜色是否落于预定颜色范围内;利用复数个连续的影像画面中位于该第一水平扫描线上的像素来产生色彩地图;如果色彩地图显示预定数目的连续影像画面中,皆包含稳定的像素区域,并且该像素皆落于该预定的颜色范围,则将目前的影像段落标示为候选的影像段落;以及对该稳定的像素区域执行色谱曲线颜色比较,以侦测镜头转换。并可进一步分析该影像片段的声音讯号以验证该候选的影像段落。然该方法以影像扫瞄线分析影像画面中色彩分布,仰赖像素区域作为影片分段依据,若影片中画面变动频繁,其精准度将不如预期。
利用音讯讯号切割影片为另一种自动切割音视讯片段的现有方法,如美国专利公告号US7181393B2所揭露的一种即时语者变换侦测及语者追踪的方法,如图2所示,该方法包含有两个阶段:在预分段程序(pre-segmentation process)中,计算相邻两片段的距离,粗略判断是否为可能的语者变换点,若不是则将该片段的数据加入原有语者模型中,更新语者模型;若是则执行精炼程序(refinement process),加入其他音讯特征算出混合机率,以特定的机率决策机制再次确认是否为语者变换点。然该方法计算多种音讯特征于相邻两片段间的距离,所需运算量庞大,增加其实施的困难度。
发明内容
本发明是关于一种利用语者识别的切割音视讯片段的方法,通过此方法可依据语者音讯切割音讯片段,并将该音讯片段对应至音视讯讯号,产生音视讯片段。本发明通过即时训练语者模型,相较于传统的语者辨识方法需事先搜集语者音讯讯号训练语者声音模型的不便,利用与来源音视讯相同的音讯讯号训练语者模型,大幅简化训练模型的繁复过程。本发明提出语者模型即时累进训练方法,即时撷取非特定语者特征音讯讯号,快速学习强健性语者音讯模型,解决即时训练无法取得语者音讯讯号问题,同时克服无法取得足够训练模型样本问题。本发明所提出的累进训练方法,不需等待搜集完整语者特征音讯讯号,即时以语者模型切割音讯片段,解决搜集完整语者特征音讯讯号所需时间产生的系统延迟。相较于以往需训练特定语者,仅以特定语者模型进行侦测音视讯片段,本发明通过即时训练语者模型,可利用即时训练的特性用于侦测非特定语者及其对应的音视讯片段,提升语者侦测技术的实用性。本发明通过即时训练语者模型,可去除传统事先训练语者模型方法所造成的声音背景环境差异,提升语者辨识的正确率,同时,更可依据所辨识的语者音讯结果切割音视讯片段,克服传统音视讯切割方法需于离线模式切割片段及仅能用于随选影片的缺点,可用于切割电视频道即时音视讯片段。
本发明的利用语者识别的切割音视讯片段的方法以递增的未知语者来源音讯即时训练非特定语者模型,并利用语者识别的结果决定音视讯片段,其中音视讯片段可为重复出现的语者所对应的音视讯片段,亦可为重复出现的语者所对应的音视讯片段的起始时间点间所涵盖的音视讯范围。本发明的利用语者识别的切割音视讯片段的方法,包含但不限于切割新闻类型影片。本发明的利用语者识别的切割音视讯片段的方法,利用语者模型决定音视讯片段,其中语者模型可为音视讯片段中重复出现的语者即时训练的音讯模型如新闻主播模型。本发明的利用语者识别的切割音视讯片段方法更含下列步骤:(1)即时训练非特定语者模型;(2)依据该语者模型决定来源音讯非特定语者片段;(3)依来源音讯非特定语者片段更新语者模型。其中步骤(1)的即时训练非特定语者模型方式为由来源音讯中撷取一段固定时间长度的语者音讯讯号。步骤(2)的来源音讯非特定语者片段长度大于训练该语者模型的音讯长度,且依据该语者模型决定来源音讯语者片段包含下列步骤:计算来源音讯与语者模型的相似度;选取相似度大于临界值的片段。
本发明的一种利用语者识别的切割音视讯片段的方法,是以递增的未知语者来源音讯即时训练非特定语者模型,并利用语者识别的结果决定音视讯片段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中华电信股份有限公司,未经中华电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410001020.0/2.html,转载请声明来源钻瓜专利网。