[发明专利]信息处理装置、信息处理方法和信息处理程序无效
申请号: | 201310163614.7 | 申请日: | 2013-05-07 |
公开(公告)号: | CN103390404A | 公开(公告)日: | 2013-11-13 |
发明(设计)人: | 山口健;加藤靖彦;木原信之;樱庭洋平 | 申请(专利权)人: | 索尼公司 |
主分类号: | G10L15/20 | 分类号: | G10L15/20;G10L15/28 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 张贵东 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息处理 装置 方法 程序 | ||
技术领域
一般地,本技术涉及信息处理装置、信息处理方法和信息处理程序。更具体地,本技术涉及能够改进不同声音收集条件下收集的一组声音的声音识别精度的信息处理装置、涉及为该信息处理装置提供的信息处理方法、并且涉及实施该信息处理方法的信息处理程序。
背景技术
在过去,通过利用声音记录器等记录由会议室中的会议参加者输出的声音,并且此外在编码和解码之后由参加者发送和接收由TV(电视)会议参加者输出的声音。因此,在这样的会议中,存在下文中也被称为声音收集系统的声音记录系统。作为用于应用声音识别技术到这样的声音收集系统的现有技术,提供了一种用于自动创建会议纪要的技术以及一种用于检测不当表述以便避免发送该表述的声音的技术。对于关于用于自动创建会议纪要的技术的更多信息,参见日本专利公开No.2004-287201和2003-255979(下文中分别称为专利文献1和2)。另一方面,对于关于用于检测不当表述的技术的更多信息,参见日本专利公开No.2011-205243(下文中称为专利文献3)。
发明内容
然而,当通过利用声音记录器等记录由会议室中的多个会议参加者输出的声音时,在许多情况下声音通常通过不同距离从参加者传播到记录器的扩音器。此外,在一些情况下,用于在任何特定会议室中的TV会议参加者输出的声音的编码和解码的音频编解码器,不同于用于在TV会议中连接到该特定会议室的另一会议室中的TV会议参加者输出的声音的编码和解码的音频编解码器。如上所述,在许多情况下,声音收集系统具有不同的声音收集条件。
在包括专利文献1到3中公开的那些的现有技术的声音识别技术中,对于在不同声音收集条件下收集的一组声音,以单个统一方式执行声音识别处理。在此情况下,在好条件下收集的一组声音可以用高精度识别。然而,担心在一些情况下其他声音不能用高精度识别。
因此,希望本技术解决上述问题,以便改进对于在不同声音收集条件下收集的一组声音的声音识别精度。
根据本技术实施例的一种信息处理装置,包括:
高质量声音确定部分,配置为确定能够确定为已经在好条件下收集的声音作为好条件声音,好条件声音包括在属于在不同条件下收集的一组声音的混合声音中;以及
声音识别部分,配置为
通过使用预定参数对由高质量声音确定部分确定的好条件声音执行声音识别处理,
基于对好条件声音执行的声音识别处理的结果,修改预定参数的值,并且
通过使用具有修改值的预定参数,对作为不同于好条件声音的声音的、包括在混合声音中的声音执行声音识别处理。
高质量声音确定部分能够将混合声音分割为声音输出时段,对于每个声音输出时段计算S/N比,并且基于计算的S/N比对于每个声音输出时段确定好条件声音。
高质量声音确定部分能够将混合声音分割为声音输出时段,对于每个声音输出时段计算S/N比,并且基于计算的S/N比对于每个声音输出人确定好条件声音。
混合声音包括多个声音,其每个源自由多个音频编解码器之一执行的处理;并且在确定好条件声音的处理中,高质量声音确定部分能够在与源自由每个其他音频编解码器执行的处理的声音的比较中,确定源自由音频编解码器执行的处理的声音为具有高质量的声音。
声音识别部分包括:
特征量提取块,配置为从包括在混合声音中的处理对象提取特征量;
似然度计算块,配置为基于由特征量提取块提取的特征量,对于处理对象生成声音识别处理结果的多个候选者,并且对于每个候选者计算似然度;
比较块,配置为比较每个对于候选者之一由似然度计算块计算的每个似然度与预定阈值,以便基于比较的结果从候选者选择处理对象的声音识别处理结果,并且输出选择的声音识别处理结果;以及
参数修改块,配置为当已经设置好条件声音以用作处理对象时,基于由比较块输出的声音识别处理结果,修改作为预定参数在特征量提取块、似然度计算块和比较块的至少一个中使用的参数。
如果已经设置不同于好条件声音的声音以用作处理对象,则参数修改块能够修改在似然度的计算中由似然度计算块使用的先验概率,作为包括在好条件声音的声音识别处理结果中的包括词的候选者的预定参数。
如果已经设置不同于好条件声音的声音以用作处理对象,则参数修改块能够修改在比较块中使用的阈值,作为预定参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼公司,未经索尼公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310163614.7/2.html,转载请声明来源钻瓜专利网。