[发明专利]声音分类装置、方法、程序及集成电路有效
| 申请号: | 201180002867.5 | 申请日: | 2011-03-15 |
| 公开(公告)号: | CN102473411A | 公开(公告)日: | 2012-05-23 |
| 发明(设计)人: | 小沼知浩;石田明 | 申请(专利权)人: | 松下电器产业株式会社 |
| 主分类号: | G10L11/00 | 分类号: | G10L11/00 |
| 代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 陈萍;高迪 |
| 地址: | 日本*** | 国省代码: | 日本;JP |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 声音 分类 装置 方法 程序 集成电路 | ||
技术领域
本发明涉及多媒体内容的处理技术,特别涉及利用了多媒体内容所包含的声音的分类技术。
背景技术
近年来,带运动图像拍摄功能的便携式电话机、数字视频摄像机等的普及,使得个人用户能够持有庞大数量的多媒体内容(在此设为带声音的运动图像。以下仅称作运动图像。)。因此,日益需要有能够高效地检索运动图像的手段。
作为检索运动图像的方法,有如下的方法:预先对运动图像赋予标题或分类到多个类别中的某个中,通过该标题或类别进行检索。
此外,还有如下的方法:预先对运动图像制作缩略图,通过并排显示运动图像的缩略图,用户能够通过目视观察而容易查找。
但是,在这些方法中,需要进行对运动图像预先赋予适当的标题、分类到类别中、制作缩略图等操作,会花费工时。
然而,作为与运动图像的分类有关的技术,公开了着眼于声音来从体育的运动图像中提取精华(highlight)部分的技术(参照专利文献1)。在专利文献1的技术中,从运动图像所包含的声音的短时间(30ms程度)的各区间提取特征,将表示特定特征(鼓掌、欢呼等)的声音持续了一定时间以上的期间分类为精华部分。
此外,作为与声音的分类有关的技术,公开了以讨论声音为对象对未知说话者的发声进行分类的技术(参照非专利文献1)。在非专利文献1的技术中,预先准备好多个说话者的特征数据,通过声音与各特征数据之间类似度进行聚类,由此对说话者的发声区间进行分类。
若使用上述两种技术,则能够对运动图像所包含的声音中的哪个部分(例如几毫秒至几秒程度的长度的部分)是什么声音进行分类。例如,若使用专利文献1的技术,则激烈的鼓掌持续了规定时间以上的部分能够被分类为活动高潮的精华部分。此外,若使用非专利文献1的技术,则能够对讨论声音中哪个部分是谁在发言进行分类。
现有技术文献
专利文献
专利文献1:特开2004-258659号公报
非专利文献
非专利文献1:秋田祐哉、河原达也、“多数話者モデルを用いた討論音声的教師なし話者インデキシング”、電子情報通信学会論文誌2004/2Vol. J87-D-IINo. 2、pp.495-503
发明内容
发明所要解决的问题
这些现有技术是从混入有各种声音的声音中提取隶属于特定分类(特定的说话者或精华场景)的部分的技术。然而,不是对该声音是与什么样的活动或状况有关的声音进行分类的技术。在此提到的活动和状况是指例如宴会、会议、体育等。
因此,即使针对运动图像所包含的声音应用这些技术来对该运动图像进行分类,也不能够进行适当的分类。
本发明鉴于上述问题点,其目的在于,为了对运动图像进行分类来减少检索的繁琐性,提供一种适当地对混入有各种声音的声音进行分类以能够通过声音对运动图像进行分类的装置、方法、程序及集成电路。
用于解决问题的手段
为了解决上述问题,本发明所涉及的声音分类装置具备:取得单元,取得音频信号;区间特征提取单元,针对所述音频信号所包含的规定时间长度的多个区间的各个区间,提取作为与声音的频率分布有关的特征的区间特征;基准区间特征存储单元,存储有多个基准区间特征,该基准区间特征是与所述区间特征进行比较的基准;计算单元,针对所述多个区间的各个区间,将所述区间特征与各个所述基准区间特征进行比较,计算表示该区间特征与该基准区间特征之间的相关程度的区间类似度;综合特征提取单元,针对所述音频信号提取综合特征,该综合特征是基于在所述多个区间的各个区间中计算出的多个区间类似度的、与多个区间有关的特征;基准综合特征存储单元,存储有1个以上的基准综合特征,该基准综合特征是与所述综合特征进行比较的基准;以及分类单元,比较所述音频信号的综合特征和所述基准综合特征,基于其结果,对该音频信号进行分类。
发明效果
根据具有上述结构的声音分类装置,求出表示音频信号的各区间与什么样的声音以何种程度相关的区间类似度,从多个区间各自的区间类似度提取综合特征。这样提取的综合特征表示音频信号所包含的各种声音混入的方式,能够反映成为音频信号来源的活动或状况。并且,通过比较综合特征和作为分类基准的数据的基准综合特征,进行分类。
通过这样将多个区间的特征综合地用于分类,能够适当对混入有各种声音的声音进行分类。
附图说明
图1是表示本发明的实施方式1所涉及的影像记录装置的功能结构及周边装置的图。
图2是表示声音分类部的功能结构的图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于松下电器产业株式会社,未经松下电器产业株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201180002867.5/2.html,转载请声明来源钻瓜专利网。





