[发明专利]采用最相关的兴趣点的各组的选择的视觉语音识别方法有效
| 申请号: | 201410203307.1 | 申请日: | 2014-05-14 |
| 公开(公告)号: | CN104166837B | 公开(公告)日: | 2018-12-04 |
| 发明(设计)人: | E·贝海姆;H·萨比 | 申请(专利权)人: | 鹦鹉汽车股份有限公司 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
| 代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 陈小刚 |
| 地址: | 法国*** | 国省代码: | 法国;FR |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 采用 相关 兴趣 各组 选择 视觉 语音 识别 方法 | ||
1.一种用于通过分析视频序列的视觉语音活动、通过跟踪在讲话者的嘴部区域上选择的一组预定兴趣点的局部变型来进行自动语言识别的方法,所述视频序列包括所述讲话者的嘴部区域的连续图像,
所述方法的特征在于,所述方法包括以下步骤:
a)形成n个兴趣点的微结构的起始集合,每一个微结构都由一n阶元组来定义,其中1≤n≤N;
b)对于步骤a)的每一元组,基于所述元组的兴趣点的局部梯度和/或移动描述符来确定相关联的结构化视觉特性;
c)通过以下步骤来迭代地搜索并选择最具区别性的元组:
c1)将适于考虑元组及其相关联的结构化特性的组合的算法应用于所述元组集合并为所述组合的每一元组确定对应的相关性分数;
c2)从在步骤c1)处考虑的所述元组集合中,提取产生最高相关性分数的元组的子集;
c3)将附加的1阶元组聚集到在步骤c2)处提取的所述子集的元组,以获得更高阶元组的新集合;
c4)确定与在步骤c3)处形成的每一所聚集的元组相关联的结构化视觉特性;
c5)在所述更高阶元组的新集合中,选择最具区别性的元组的新子集;以及
c6)重复步骤c1)到c5)直至最大阶N;以及
d)基于在步骤c)选择的元组来执行视觉语言识别算法。
2.如权利要求1所述的方法,其特征在于:
–步骤c1)的算法是多核学习MKL类型的算法;
–步骤c1)的组合是元组与针对每一元组的最优权重的线性组合,其中所述最优权重是通过所述MKL算法计算得到的其在所述组合中的贡献;以及
–在步骤c2)处提取的元组的所述子集是具有最高权重的元组的子集。
3.如权利要求1所述的方法,其特征在于:
–步骤c3)到c5)实现了一种算法,适于:
·在连续图像上评估所考虑的元组的兴趣点的速度,以及
·计算步骤c3)的附加元组与步骤2)处提取的子集的元组之间的距离;以及
–在步骤c5)处提取的最具区别性的元组的子集是满足方差最大化准则VMC的元组的子集。
4.如权利要求1所述的方法,其特征在于:
–步骤c3)到c5)实现多核学习MKL类型的算法,适于:
·形成元组的线性组合,以及
·对于每一元组,计算其在所述组合中的贡献的最优权重;以及
在步骤c5)处提取的最具区别性的元组的子集是具有最高权重的元组的子集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鹦鹉汽车股份有限公司,未经鹦鹉汽车股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410203307.1/1.html,转载请声明来源钻瓜专利网。





