[发明专利]收集训练数据的方法、装置、设备和计算机可读存储介质在审
申请号: | 201810553778.3 | 申请日: | 2018-05-31 |
公开(公告)号: | CN108763548A | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 王矩;张晶晶;孙珂 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 李辉;丁君军 |
地址: | 100094 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练数据 计算机可读存储介质 回复 自然语言 对话 澄清 自然语言形式 聊天 语义 电子设备 聊天消息 消息确定 训练效率 训练样本 机器人 响应 | ||
根据本公开的示例实施例,提供了一种用于收集训练数据的方法、装置、电子设备以及计算机可读存储介质。方法包括获得来自用户的第一消息并且获得来自用户的针对第一回复的第二消息,其中第一回复是基于第一消息而生成的,并且第一消息和第二消息均为自然语言形式。方法还包括响应于确定第二消息在语义上澄清第一消息,将第一消息确定为用于训练聊天对话的训练数据。根据本公开的实施例,针对在聊天对话中由于用户澄清而调整了机器人回复的情形,用户的聊天消息可以被自动加入到训练样本,由此实现从自然语言对话直接收集高质量的训练数据,降低了训练成本并且提高了训练效率。
技术领域
本公开的实施例总体上涉及人工智能领域,并且更具体地涉及用于收集训练数据的方法、装置、电子设备以及计算机可读存储介质。
背景技术
近年来,“对话即平台(Conversation as a Platform)”的理念日益深入人心,越来越多的网络产品和应用开始使用对话式的人机交互方式。聊天机器人是指可以通过文字、语音或图片等实现人机交互的计算机程序或软件,其可以理解用户发出的内容,并且自动做出应答。聊天机器人在一定程度上可以取代真人进行对话,其可以被集成到对话系统中作为自动在线助理,以用于例如智能聊天、客户服务、信息询问等场景。
为了使聊天机器人更智能并且以人类对话的方式进行聊天,通常需要使用训练数据来进行训练。训练数据是用来训练机器学习模型的已标注的数据,其能够用来提高模型的性能。通常,在聊天机器人的训练过程中,对话样本标注、模型训练和效果验证作为相对独立的功能来单独执行。例如,需要针对业务场景进行一定量级的对话样本标注后才能进行模型训练,训练好模型后还需要再次与聊天机器人对话来进行测试和验证效果,并行需要通过手动记录来评估聊天机器人的性能。
发明内容
根据本公开的示例实施例,提供了一种用于收集训练数据的方法、装置、电子设备以及计算机可读存储介质。
在本公开的第一方面中,提供了一种用于收集训练数据的方法。该方法包括:获得来自用户的第一消息;获得来自用户的针对第一回复的第二消息,其中第一回复基于第一消息而被生成,并且第一消息和第二消息均为自然语言形式;以及响应于确定第二消息在语义上澄清第一消息,将第一消息确定为用于训练聊天对话的训练数据。
在本公开的第二方面中,提供了一种用于收集训练数据的装置。该装置包括:第一消息获得模块,被配置为获得来自用户的第一消息;第二消息获得模块,被配置为获得来自用户的针对第一回复的第二消息,其中第一回复基于第一消息而生成,并且第一消息和第二消息均为自然语言形式;以及训练数据确定模块,被配置为响应于确定第二消息在语义上澄清第一消息,将第一消息确定为用于训练聊天对话的训练数据。
在本公开的第三方面中,提供了一种电子设备,其包括一个或多个处理器以及存储装置,存储装置用于存储一个或多个程序。一个或多个程序当被一个或多个处理器执行,使得电子设备实现根据本公开的实施例的方法或过程。
在本公开的第四方面中,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的实施例的方法或过程。
应当理解,本发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1示出了本公开的实施例能够实现在其中的示例环境的示意图;
图2示出了根据本公开的实施例的用户与聊天机器人之间的示例对话的图形用户界面(GUI)的示图;
图3示出了根据本公开的实施例的用于收集训练数据的方法的流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810553778.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种扬尘在线监测系统
- 下一篇:高炉大数据应用系统