[发明专利]车载环境下聊天机器人的语料处理方法、装置及存储介质有效
申请号: | 201910984527.5 | 申请日: | 2019-10-16 |
公开(公告)号: | CN110838287B | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 裴丽珊 | 申请(专利权)人: | 中国第一汽车股份有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/22;B25J11/00 |
代理公司: | 北京远智汇知识产权代理有限公司 11659 | 代理人: | 范坤坤 |
地址: | 130011 吉林省长春市*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 车载 环境 聊天 机器人 语料 处理 方法 装置 存储 介质 | ||
本发明公开了一种车载环境下聊天机器人的语料处理方法、装置及存储介质,该方法包括:基于车载环境中的语音功能分类,确定车载环境中的具有问答关系的对话描述文本,根据所述对话描述文本中的问答关系,确定提问文件和响应文件,将所述提问文件以及所述响应文件输入Seq2Seq模型,对所述Seq2Seq模型进行训练,形成问答模型,在进行语料处理时,省去了较为繁琐的语料处理步骤,采用问答分离式处理方法,提高了语料处理效率。
技术领域
本发明实施例涉及车联网领域,尤其涉及一种车载环境下聊天机器人的语料处理方法、装置及存储介质。
背景技术
随着汽车产业的发展,车联网领域受到越来越多的关注。在车联网领域中,人工智能技术扮演着至关重要的角色。车载环境下的聊天机器人已经成为各大车企竞相角逐的重点之一。车载环境下聊天机器人的语料处理也变得越来越重要。
目前,采用以下方式进行车载环境下聊天机器人的语料处理:首先,对原始数据进行清洗,把不感兴趣的、视为噪音的内容清洗删除;然后,对数据进行分词,按照文本处理最小单位粒度,即词或者词语,将文本全部进行分词;其次,对分词后的词语进行词性标注,对每个词或者词语打词类标签;最后,去掉对文本特征没有任何贡献的字词。
但是,上述处理步骤较为繁琐,导致语料处理效率较低。
发明内容
本发明提供一种车载环境下聊天机器人的语料处理方法、装置及存储介质,以解决目前语料处理步骤较为繁琐,导致处理效率较低的技术问题。
第一方面,本发明实施例提供一种车载环境下聊天机器人的语料处理方法,包括:
基于车载环境中的语音功能分类,确定车载环境中的具有问答关系的对话描述文本;
根据所述对话描述文本中的问答关系,确定提问文件和响应文件;
将所述提问文件以及所述响应文件输入Seq2Seq模型,对所述Seq2Seq模型进行训练,形成问答模型。
如上所示的方法中,所述基于车载环境中的语音功能分类,确定车载环境中的具有问答关系的对话描述文本,包括:
对每种语音功能进行子功能划分;
确定每种语音功能包括的多个子功能中,每个子功能的典型话术及从文本到语音TTS播报内容的对话描述;
根据所有语音功能对应的对话描述,确定所述对话描述文本。
如上所示的方法中,所述语音功能分类包括:系统控制、音乐、电台、电话、导航、视频、充电桩、天气、股票及酒店中的任一种或者多种功能。
如上所示的方法中,所述确定车载环境中的具有问答关系的对话描述文本,包括:
将提问语句存储在奇数行中,将响应语句存储在偶数行中,形成所述对话描述文本;
相应地,所述根据所述对话描述文本中的问答关系,确定提问文件和响应文件,包括:
提取所述对话描述文本中的奇数行的语句,形成所述提问文件;
提取所述对话描述文本中的偶数行的语句,形成所述响应文件。
如上所示的方法中,所述将所述提问文件以及所述响应文件输入Seq2Seq模型,对所述Seq2Seq模型进行训练,形成问答模型,包括:
对所述提问文件中的每个提问语句和响应文件中的每个响应语句进行长度标准化处理,形成标准化提问文件和标准化响应文件;
对所述标准化提问文件和所述标准化响应文件分别进行语句向量转换,形成向量化提问文件和向量化响应文件;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国第一汽车股份有限公司,未经中国第一汽车股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910984527.5/2.html,转载请声明来源钻瓜专利网。