[发明专利]用于神经网络中过度预测的方法和系统在审
| 申请号: | 202180077947.0 | 申请日: | 2021-11-17 |
| 公开(公告)号: | CN116490879A | 公开(公告)日: | 2023-07-25 |
| 发明(设计)人: | C·D·V·黄;T·T·乌;P·扎雷莫迪;Y·许;V·布利诺夫;Y-H·洪;Y·D·T·S·达马西里;V·韦氏诺一;E·L·贾拉勒丁;M·帕里克;T·L·董;M·E·约翰逊 | 申请(专利权)人: | 甲骨文国际公司 |
| 主分类号: | G06N3/047 | 分类号: | G06N3/047;G06N3/048;G06N3/08;G06F16/332;G06F40/35 |
| 代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 周衡威 |
| 地址: | 美国加*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 神经网络 过度 预测 方法 系统 | ||
本文公开了用于解决与聊天机器人系统中的机器学习模型相关联的过度自信问题的技术。对于机器学习模型的多个层中的每个层,关于输入的话语,为多个预测生成置信度分数的分布。基于为层生成的置信度分数的分布来确定要指派给机器学习模型的每个层的预测。基于这些预测,确定机器学习模型的总体预测。所述多个层的子集被迭代处理以识别其指派的预测满足准则的层。与机器学习模型的该层的被指派的预测相关联的置信度分数被指派为要与机器学习模型的总体预测相关联的总体置信度分数。
相关申请的交叉引用
本申请是于2020年11月30日提交的美国临时申请No.63/119,566和于2021年11月16日提交的美国非临时申请No.17/455,181的非临时申请,并根据35USC 119(e)要求其权益和优先权。上面提到的申请的全部内容通过引用整体并入本文,用于所有目的。
技术领域
本公开一般而言涉及聊天机器人(chatbot)系统,并且更具体地涉及用于解决与机器学习模型(例如,在聊天机器人系统中用于分类目的的神经网络)相关联的过度自信(overconfidence)问题的技术。
背景技术
世界各地的许多用户都在即时消息传递或聊天平台上以便获得即时反应。组织经常使用这些即时消息传递或聊天平台与客户(或最终用户)进行实时交谈。然而,组织雇用服务人员来与客户或最终用户进行实时交谈的成本可能非常高。已经开始开发聊天机器人或机器人来模拟与最终用户的交谈,尤其是通过互联网进行交谈。最终用户可以通过最终用户已经安装和使用的消息传递应用来与机器人通信。通常由人工智能(AI)提供支持的智能机器人可以在实时交谈中更智能地进行上下文交流,因此可以允许机器人与最终用户之间进行更自然的交谈,以改善交谈体验。与最终用户学习机器人知道如何进行响应的关键字或命令的固定集合不同,智能机器人可以能够基于用户的自然语言话语(utterance)来理解最终用户的意图并相应地做出响应。
然而,聊天机器人难以构建,因为这些自动化解决方案要求特定领域的特定知识和特定技术的应用,而这些可能仅在专业开发人员的能力范围内。作为构建此类聊天机器人的一部分,开发人员可以首先了解企业和最终用户的需求。然后,开发人员可以分析并做出与例如以下项相关的决定:选择要用于分析的数据集、准备输入数据集以进行分析(例如,在分析之前清理数据、提取、格式化和/或变换数据、执行数据特征工程设计等)、识别用于执行该分析的适当的(一种或多种)机器学习(ML)技术或(一个或多个)模型,并基于反馈来改进技术或模型以改进结果/成果。识别适当模型的任务可以包括开发多个模型,这些模型可能是并行的,在识别特定的一个(或多个)模型供使用之前对这些模型进行迭代测试和试验。另外,基于有监督学习的解决方案通常涉及训练阶段,然后是应用(即,推理)阶段,以及训练阶段和应用阶段之间的迭代循环。开发人员可以负责仔细实现和监视这些阶段以获得最优解决方案。
通常,各个机器人采用机器学习模型(例如神经网络),该模型被训练为分类器并被配置为针对给定输入从目标类或类别的集合中预测或推断用于该输入的类或类别。较深的神经网络(即,具有许多层的神经网络模型,例如,四层或更多层)一般比较浅的神经网络(即,具有较少层的神经网络模型)在其输出预测方面更准确。然而,深度神经网络存在(置信度分数的)过度自信的问题,其中,神经网络为某个类生成的置信度分数可能变得与真实置信度分数解相关(de-correlated)。
因而,虽然深度神经网络因其提高的准确性而对于使用是期望的,但必须处理与深度神经网络相关联的过度自信问题以避免神经网络的性能问题。本文描述的实施例单独地和共同地解决了这些问题以及其它问题。
发明内容
公开了用于解决与在聊天机器人系统中用于分类目的的机器学习模型(例如,神经网络)相关联的过度自信问题的技术(例如,方法、系统、存储可由一个或多个处理器执行的代码或指令的非暂态计算机可读介质)。本文描述了各种实施例,包括方法、系统、存储可由一个或多个处理器执行的程序、代码或指令等的非暂态计算机可读存储介质。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于甲骨文国际公司,未经甲骨文国际公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180077947.0/2.html,转载请声明来源钻瓜专利网。





