[发明专利]车载环境下聊天机器人的语料处理方法、装置及存储介质有效
| 申请号: | 201910984527.5 | 申请日: | 2019-10-16 |
| 公开(公告)号: | CN110838287B | 公开(公告)日: | 2022-04-19 |
| 发明(设计)人: | 裴丽珊 | 申请(专利权)人: | 中国第一汽车股份有限公司 |
| 主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/22;B25J11/00 |
| 代理公司: | 北京远智汇知识产权代理有限公司 11659 | 代理人: | 范坤坤 |
| 地址: | 130011 吉林省长春市*** | 国省代码: | 吉林;22 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 车载 环境 聊天 机器人 语料 处理 方法 装置 存储 介质 | ||
1.一种车载环境下聊天机器人的语料处理方法,其特征在于,包括:
基于车载环境中的语音功能分类,确定车载环境中的具有问答关系的对话描述文本;
根据所述对话描述文本中的问答关系,确定提问文件和响应文件;
将所述提问文件以及所述响应文件输入序列对序列Seq2Seq模型,对所述Seq2Seq模型进行训练,形成问答模型;
所述将所述提问文件以及所述响应文件输入序列对序列Seq2Seq模型,对所述Seq2Seq模型进行训练,形成问答模型,包括:
对所述提问文件中的每个提问语句和响应文件中的每个响应语句进行长度标准化处理,形成标准化提问文件和标准化响应文件;
对所述标准化提问文件和所述标准化响应文件分别进行语句向量转换,形成向量化提问文件和向量化响应文件;
将所述向量化提问文件和所述向量化响应文件输入所述Seq2Seq模型中,对所述Seq2Seq模型进行训练,形成问答模型;
所述对所述标准化提问文件和所述标准化响应文件分别进行语句向量转换,形成向量化提问文件和向量化响应文件,包括:
对所述标准化提问文件和标准化响应文件中字符的出现次数进行统计,按照出现次数从小到大的顺序进行排列,生成字符字典;
根据所述字符字典与语句向量的对应关系,确定每个字符对应的向量;
根据所述每个字符对应的向量,形成所述向量化提问文件和向量化响应文件;
其中,所述根据所述字符字典与语句向量的对应关系,确定每个字符对应的向量包括:对所述字符字典中排列在前的字符赋予长度较长的向量,对排列在后的字符赋予长度较短的向量。
2.根据权利要求1所述的方法,其特征在于,所述基于车载环境中的语音功能分类,确定车载环境中的具有问答关系的对话描述文本,包括:
对每种语音功能进行子功能划分;
确定每种语音功能包括的多个子功能中,每个子功能的典型话术及从文本到语音TTS播报内容的对话描述;
根据所有语音功能对应的对话描述,确定所述对话描述文本。
3.根据权利要求2所述的方法,其特征在于,所述语音功能分类包括:系统控制、音乐、电台、电话、导航、视频、充电桩、天气、股票及酒店中的任一种或者多种功能。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述确定车载环境中的具有问答关系的对话描述文本,包括:
将提问语句存储在奇数行中,将响应语句存储在偶数行中,形成所述对话描述文本;
相应地,所述根据所述对话描述文本中的问答关系,确定提问文件和响应文件,包括:
提取所述对话描述文本中的奇数行的语句,形成所述提问文件;
提取所述对话描述文本中的偶数行的语句,形成所述响应文件。
5.根据权利要求1所述的方法,其特征在于,所述对所述提问文件中的每个提问语句和响应文件中的每个响应语句进行长度标准化处理,形成标准化提问文件和标准化响应文件,包括:
将所有提问语句中的最长的提问语句的字符数作为标准提问语句字符数,将所有响应语句中的最长的响应语句的字符数作为标准响应语句字符数;
将长度小于所述标准提问语句字符数的提问语句的长度填充至所述标准提问语句字符,形成填充后的提问语句;
对长度等于所述标准提问语句字符数的提问语句以及所述填充后的提问语句添加起止字符,形成所述标准化提问文件;
将长度小于所述标准响应语句字符数的响应语句的长度填充至所述标准响应语句字符,形成填充后的响应语句;
对长度等于所述标准响应语句字符数的响应语句以及所述填充后的响应语句添加起止字符,形成所述标准化响应文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国第一汽车股份有限公司,未经中国第一汽车股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910984527.5/1.html,转载请声明来源钻瓜专利网。





