[发明专利]实时语音分析方法和系统有效
| 申请号: | 201410299692.4 | 申请日: | 2014-06-27 |
| 公开(公告)号: | CN104252864B | 公开(公告)日: | 2018-04-10 |
| 发明(设计)人: | S·P·卡斯基;倪健;A·萨克拉耶丹;万晖;吴澄 | 申请(专利权)人: | 国际商业机器公司 |
| 主分类号: | G10L25/48 | 分类号: | G10L25/48;G10L21/06 |
| 代理公司: | 北京市中咨律师事务所11247 | 代理人: | 于静,张亚非 |
| 地址: | 美国*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 实时 语音 分析 方法 系统 | ||
技术领域
本发明一般地涉及用于语音分析的方法和装置,更具体地说,涉及用于实时语音分析的方法和装置。
背景技术
语音是我们日常生活的不可或缺的一部分。准确的语音(例如,发音、语法等)在高效通信中起着重要作用。能够有效地说话可以使人容易被理解,听起来信心十足,并且明确地表达出重点。
纠正和改进语音的常规设备和技术包括人为指导以及计算机辅助工具。
在常规的人为指导方法中,雇用教师(即,语音-语言培训师、语言学家等)帮助纠正和改进语音。例如,可以参加现场讲习班或完成在线课程。
但是,使用现场老师会需要大量时间。此外,成本通常非常高昂。另外,使用这种方法缺少迫切需要的灵活性。
在常规的计算机辅助工具中,用户打开软件并且阅读软件显示的文本(预先选择或随机选择)。计算机分析用户的声道并标识错误。计算机例如可以根据语音与所需发音的接近程度分析语音,或者使用语音识别组件将语音输入转换为文本,然后测量转换的文本与原始文本的接近程度。
但是,这种计算机辅助工具不提供个人触觉。进一步,计算机难以表示用户的实际、真实的语音内容。此外,用户通常仍然需要花费大量时间使用工具。
常规工具的语音识别组件经过预先训练,因此高度地非个人化。实际上,常规计算机辅助工具不能动态适应用户语音或者用户与他人对话中的内容。
常规方法还需要主动练习。预先选择的文本可能不对应于用户最常说的单词和词组。使用常规技术,可能难以涵盖用户习惯性说的某些事物,例如某些术语。
发明内容
考虑到常规方法和结构的上述和其他示例性问题、缺点和劣势,本发明的一个示例性特性是提供一种方法和结构,其中以高度个性化、具有时效性的方式实时纠正和改进用户语音。
本发明的第一示例性方面包括一种为用户提供实时语音分析的方法。所述方法包括:捕获语音输入,执行所述语音输入的实时识别,以及分析所识别的语音输入以标识所述用户的语音中的可能错误。
本发明的另一个示例性方面包括一种非瞬时性计算机可读存储介质,其有形地包含机器可读指令程序,所述机器可读指令程序可由数字处理装置执行以便执行一种为用户提供实时语音分析的方法。所述方法包括:捕获语音输入,执行所述语音输入的实时识别,以及分析所识别的语音输入以标识所述用户的语音中的可能错误。
本发明的另一个示例性方面包括一种用于提供实时语音分析的系统。所述系统包括:捕获组件,其用于捕获语音输入;自动语音识别(ASR)组件,其用于执行所述语音输入的实时识别;以及分析组件,其用于分析所识别的语音输入以标识错误。
本发明的另一个示例性方面包括一种用于在对话上下文中提供实时语音纠正的方法。所述方法包括:使用自动语音识别系统(ASR)将多个说话者的语音转换为文本,所述多个说话者包括用户;处理所述文本以提取上下文对话提示;使用所述提示检测候选声音、候选单词和候选词组中的至少一个以便纠正;比较候选列表与来自用户简档的信息;使用比较结果建议纠正和同义词中的至少一个;以及通过音频反馈、图形反馈和文本反馈中的至少一个,向所述用户通知所述纠正和所述同义词中的所述至少一个。
根据本发明的各示例性方面,可以提供用户语音的实时、被动监视,这不需要用户的主动参与。这种方法高度交互,可以利用上下文和对话语义,并且高度个性化。
附图说明
从以下详细描述,将更好地理解上述和其他示例性目的、方面和优点。详细描述将参考附图描述所公开的系统、方法和计算机程序产品的各种特性和功能。在附图中,类似的系统通常标识类似的组件,除非上下文另有所指。示例性系统、方法和计算机程序产品并不意味着限制。应该很容易地理解,所公开的系统和方法的某些方面可以以全部在此构想的各种不同配置来布置和组合,这些附图是:
图1是本发明的一个示例性体系架构的描述;
图2示出根据本发明的一个示例性实施例的示例性方法;
图3是可以用于实现本公开的发明方面的典型硬件配置;以及
图4是可以与图3的典型硬件配置以及图1的示例性体系架构结合使用的示例性存储介质的描述。
具体实施方式
现在参考附图,更具体地说参考图1-4,其中示出根据本发明的方法和结构的各示例性实施例。
在当今忙碌的世界中,时间非常珍贵。本发明不需要主动练习。相反,它提供用户语音的实时、被动监视。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410299692.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于加固笔记本的光驱插槽
- 下一篇:一种计算机显示屏底座





