[发明专利]一种多媒体文件检索的方法和装置有效
申请号: | 201310469487.3 | 申请日: | 2013-10-10 |
公开(公告)号: | CN103455642B | 公开(公告)日: | 2017-03-08 |
发明(设计)人: | 胡锴亮 | 申请(专利权)人: | 三星电子(中国)研发中心;三星电子株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司11018 | 代理人: | 谢安昆,宋志强 |
地址: | 210061 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多媒体 文件 检索 方法 装置 | ||
1.一种多媒体文件检索的方法,其特征在于,所述方法包括:
存储多媒体文件,其中,所述多媒体文件在捕获时,嵌入了针对该多媒体文件的描述语音数据;
接收到检索多媒体文件的语音指令时,识别并分离该语音指令中的动作关键词和需要检索的多媒体文件的描述关键词;
根据分离出的描述关键词,对存储的多媒体文件进行匹配;其中,匹配每个多媒体文件时,通过嵌入该多媒体文件的描述语音数据,识别出该多媒体文件的描述关键词;若分离出的描述关键词与识别出的描述关键词匹配,则确定该多媒体文件为匹配的多媒体文件;
根据分离出的动作关键词,对匹配到的多媒体文件执行相应的动作。
2.根据权利要求1所述的方法,其特征在于,
所述针对该多媒体文件的描述语音数据为:预设的缺省语音数据,或,捕获的发声者针对该多媒体文件的描述语音数据。
3.根据权利要求1所述的方法,其特征在于,所述多媒体文件在捕获时,嵌入了针对该多媒体文件的描述语音数据,包括:将针对该多媒体文件的描述语音数据,以扩展数据、元数据、数字水印,或保留数据原始格式的形式,嵌入到捕获到的多媒体文件中。
4.根据权利要求1-3任意一项所述的方法,其特征在于,所述分离该语音指令中的动作关键词和需要检索的多媒体文件的描述关键词,之后,所述根据分离出的描述关键词,对存储的多媒体文件进行匹配,之前,所述方法进一步包括:
确定分离出的描述关键词是否与预设描述关键词匹配,如果是,对接收到的语音指令进行语音特征识别,获得该语音指令的发声者的语音特征;使用获得的发声者的语音特征,对存储的多媒体文件进行匹配;其中,匹配每个多媒体文件时,识别出嵌入该多媒体文件的描述语音数据的语音特征;若获得的发声者的语音特征与识别出的语音特征匹配,则确定该多媒体文件为匹配的多媒体文件;并根据分离出的动作关键词,对匹配到的多媒体文件执行相应的动作;
否则,执行所述根据分离出的描述关键词,对存储的多媒体文件进行匹配的步骤及后续步骤。
5.根据权利要求1-3所述的方法,其特征在于,所述分离该语音指令中的动作关键词和需要检索的多媒体文件的描述关键词时,所述方法进一步包括:对接收到的语音指令进行语音特征识别,获得该语音指令的发声者的语音特征;
所述根据分离出的描述关键词,对存储的多媒体文件进行匹配,之后,所述根据分离出的动作关键词,对匹配到的多媒体文件执行相应的动作,之前,所述方法进一步包括:
使用获得的发声者的语音特征,对通过描述关键词匹配到的多媒体文件进行进一步匹配;其中,匹配每个多媒体文件时,识别出嵌入该多媒体文件的描述语音数据的语音特征;若获得的发声者的语音特征与识别出的语音数据的语音特征匹配,则确定该多媒体文件为匹配的多媒体文件;
所述根据分离出的动作关键词,对匹配到的多媒体文件执行相应的动作,包括:根据分离出的动作关键词,对通过语音特征匹配到的多媒体文件执行相应的动作。
6.根据权利要求1-3所述的方法,其特征在于,所述分离该语音指令中的动作关键词和需要检索的多媒体文件的描述关键词时,所述方法进一步包括:对接收到的语音指令进行语音特征识别,获得该语音指令的发声者的语音特征;
所述根据分离出的描述关键词,对存储的多媒体文件进行匹配,之前,所述方法进一步包括:使用获得的发声者的语音特征,对存储的多媒体文件进行匹配;其中,匹配每个多媒体文件时,识别出嵌入该多媒体文件的描述语音数据的语音特征;若获得的发声者的语音特征与识别出的语音数据的语音特征匹配,则确定该多媒体文件为匹配的多媒体文件;
其中,根据分离出的描述关键词,对存储的多媒体文件进行匹配,包括:根据分离出的关键词,在通过语音特征匹配到的多媒体文件中进行匹配。
7.根据权利要求1-3任意一项所述的方法,其特征在于,所述方法进一步包括:
接收到发声者的语音数据时,进行语音特征识别,获得该发声者的语音特征;
对需要确定版权的多媒体文件中嵌入的描述语音数据进行语音特征识别,获得描述语音数据的语音特征;
确定获得的发声者的语音特征与获得的描述语音数据的语音特征进行匹配;
若获得的发声者的语音特征与获得的描述语音数据的语音特征匹配,则确定该发声者为该多媒体文件的版权所有者;否则,确定该发声者不为该多媒体文件的版权所有者。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三星电子(中国)研发中心;三星电子株式会社,未经三星电子(中国)研发中心;三星电子株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310469487.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种反射式面向对象仿真引擎
- 下一篇:一种识别微博突发热点事件的方法及装置