[发明专利]话音识别有效
申请号: | 201780014607.7 | 申请日: | 2017-02-24 |
公开(公告)号: | CN108701458B | 公开(公告)日: | 2023-01-31 |
发明(设计)人: | R·J·弗勒利克 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/08;G10L15/19;G10L15/183 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 王英;刘瑜 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 话音 识别 | ||
1.一种在用户与人工智能软件代理之间实行通信的计算机系统,包括:
输入端,其被配置为从用户接收语音输入;
ASR系统,其用于识别所述语音输入中的个体单词,其中,所述ASR系统被配置为在所述语音输入中的至少一个话音活动的间隔期间、在存储器中生成其已经在所述语音输入中识别出的一个或多个单词的集合,并且被配置为其每次在所述语音输入中识别出新单词时更新所述存储器中的所述集合以将所述新单词添加至所述集合;
查找模块,其被配置为在所述语音输入中的所述话音活动的间隔期间、在所述话音活动间隔仍在进行时的第一时间从所述存储器中的所述集合中取回至少一个单词,并且被配置为在所述话音活动间隔仍在进行时执行查找以预先取回与所述至少一个单词相关联的信息,所预先取回的信息包括与所述集合中的所述至少一个单词上下文相关且不同的一个或多个相关单词;以及
响应生成模块,其被配置为检测所述话音活动间隔在稍后时间的结束,所述集合在所述第一时间与所述稍后时间之间至少被所述ASR系统更新了一次,并且被配置为生成用于输出给所述用户的响应,其中,所述响应传达由所述查找模块预先取回的信息。
2.根据权利要求1所述的计算机系统,其中,所述响应是基于由所述ASR系统向所述个体单词中的至少一个个体单词分配的置信度数值和/或由所述计算机系统的语言模型向单词的所述集合分配的置信度数值而生成的。
3.根据权利要求1所述的计算机系统,其中,所述信息是从互联网搜索引擎预先取回的。
4.根据权利要求1所述的计算机系统,其中,所述用户是通信系统的用户,而所预先取回的信息是关于所述通信系统中的另一用户的信息。
5.根据权利要求4所述的计算机系统,其中,所预先取回的信息包括针对所述另一用户的联系人细节。
6.根据权利要求1所述的计算机系统,包括话音检测模块,其被配置为当所述存储器中的所识别的单词的所述集合被所述ASR系统更新时对所述集合进行监视,其中,所述响应生成模块被配置为基于对所识别的单词的所述集合的所述监视来检测所述话音活动间隔的所述结束。
7.根据权利要求6所述的计算机系统,还包括语言模型,其中,检测所述话音活动间隔的所述结束包括由所述话音检测模块检测根据所述语言模型,所识别的单词的所述集合何时形成语法上完整的句子。
8.根据权利要求6所述的计算机系统,其中,检测所述话音活动间隔的所述结束包括由所述话音检测模块检测在预先确定的时段内没有新单词被所述ASR系统识别。
9.根据权利要求1所述的计算机系统,其中,所述响应是用于以可听见的形式向所述用户播出的音频响应。
10.根据权利要求1所述的计算机系统,包括视频生成模块,其被配置为生成并向所述用户输出化身的运动图像,所述化身的运动图像通过执行视觉动作来传达对所述响应的输出何时将开始。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780014607.7/1.html,转载请声明来源钻瓜专利网。