[发明专利]使用抽出的声音数据生成应答声音的声音识别系统无效
| 申请号: | 200680003694.8 | 申请日: | 2006-02-03 |
| 公开(公告)号: | CN101111885A | 公开(公告)日: | 2008-01-23 |
| 发明(设计)人: | 鲸井俊宏;友田孝久;富樫实;大野健 | 申请(专利权)人: | 株式会社查纳位资讯情报 |
| 主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/08;G10L15/18;G10L13/02 |
| 代理公司: | 北京银龙知识产权代理有限公司 | 代理人: | 许静 |
| 地址: | 日本神*** | 国省代码: | 日本;JP |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 使用 抽出 声音 数据 生成 应答 识别 系统 | ||
技术领域
本发明涉及使用声音识别技术进行基于通过用户的声音的输入的应答的声音识别系统、声音识别装置以及声音生成程序。
背景技术
现在的声音识别技术,学习关于由大量的声音数据构成发音的单位标准模式的音响模型,与作为识别对象的词汇组的辞典对照,连接单位标准模式的音响模型,由此,制作对照用的模式。
该单位标准模式,使用使用音节的方法、或者元音的恒定部、辅音的恒定部、进而由它们的转移状态组成的音素片等。另外,作为其表现方法,使用HMM(Hidden Markov Models(隐式马尔科夫模型))技术。
这样的方式,换言之,是由大量的数据制成的标准模式和输入信号的模式匹配技术。
另外,例如在把“放大音量”“减小音量”这样的两个句子作为识别对象的场合,公知把各个句子全体作为识别对象的方法、和将构成句子的部分在辞典上作为词汇登记,把词汇的组合作为识别对象的方法。
另外,声音识别的结果,用在画面上显示识别结果字符串的方法、使用声音合成把识别结果字符串变换为合成声音再生的方法、或者根据识别结果再生预先录音的声音的方法等通知用户。
另外,还公知这样的方法:不是单纯地通知声音识别的结果,而是用在识别结果的单词或者句子后包含敦促“可以吗?”这样的确认的句子的文字显示或者合成声音,进行和用户的对话。
另外,现在的声音识别技术,一般是从作为识别对象词汇登记的词汇中选择最类似用户的发音的词汇作为识别结果,同时输出该识别结果的可靠性尺度的可信度。
作为计算识别结果的可信度的方法,例如在特开平4-255900号公报中,公开了用比较对照部2计算输入声音的特征矢量V和预先登记的多个标准模式的类似度的技术。此时,把给出类似度最大值S的标准模式作为识别结果求出。并行地,用参照类似度计算部4比较对照特征矢量V和结合单位标准模式存储部3的单位标准模式的标准模式。这里,把类似度的最大值作为参照类似度R输出。接着在类似度修正部5中,有使用参照类似度R修正类似度S的声音识别装置。通过该类似度能够算出可信度。
作为可信度的利用方法,公知在识别结果的可信度低的场合,向用户通知不能正常识别的方法。
另外,在特开平6-110650号公报中,公开了这样的方法:在人名等关键词的数目多、登记全部关键词模式困难的场合,通过登记不能成为关键词的模式,抽出关键词部分,组合录音了用户发音的声音的语音中的关键词部分和系统预先准备的声音,生成应答声音。
发明内容
如上所述,在基于辞典和模式匹配技术的现在的声音识别系统中,不能完全防止将用户的发音弄错为辞典中的其他的词汇的误识别的发生。另外,在把词汇的组合作为识别对象的方式中,因为也需要包含用户发音的哪个部分和哪个词汇对应进行正确识别,所以由于对于一个词汇与弄错的部分对应来进行了识别,由于对应的偏离的波及有时其他的单词也会产生误识别。另外,在发音未在辞典上登记的词汇的场合,原理上不能正确进行识别。
为有效利用这样的不完全的识别技术,需要向用户正确地传达能够正确识别用户发音的哪个部分、不能够正确识别哪个部分。但是,现有技术向用户用画面或者声音通知识别结果字符串的方法、或者在可信度低的场合仅向用户通知不能正常进行识别,不能充分满足该要求。
本发明是鉴于上述问题提出的,其特征在于,根据构成声音识别结果的各词汇的可信度,可信度高的词汇使用合成声音,可信度低的词汇使用与该词汇对应的用户发音的片断,生成向用户通知的反馈声音。
本发明是根据用户发出的声音的输入进行应答的声音识别系统,其特征在于,具有:把用户发出的声音变换为声音数据的声音输入部;识别构成声音数据的单词的组合、计算每一单词的识别的可信度的声音识别部;生成应答声音的应答生成部;和使用应答声音向用户传达信息的声音输出部;应答生成部,对于计算出来的可信度满足规定条件的单词,生成该单词的合成声音,对于计算出来的可信度不满足规定条件的单词,从声音数据抽出与该单词对应的部分,通过合成声音和/或抽出的声音数据的组合生成应答声音。
能够提供一种声音识别系统,其直觉上可理解用户发言的哪个部分能够识别、哪个部分不能够识别。另外,能够提供一种声音识别系统,其在声音识别系统进行错误地确认的场合,因为通知用户的片断的用户自身的发音,在发音的中途被切断等、直觉上认为不正常的形态下被再生,所以能够理解未正常进行声音识别。
附图说明
图1是本发明的实施形态的声音识别系统的结构框图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社查纳位资讯情报,未经株式会社查纳位资讯情报许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680003694.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种提高低渗储层产能的压裂方法
- 下一篇:一种单向可视节能环保玻璃
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





