[发明专利]问答记录生成方法、装置、电子设备及存储介质在审
申请号: | 202110429297.3 | 申请日: | 2021-04-21 |
公开(公告)号: | CN113111159A | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 朱章春 | 申请(专利权)人: | 康键信息技术(深圳)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/35;G06F40/216;G06F40/289 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 问答 记录 生成 方法 装置 电子设备 存储 介质 | ||
1.一种问答记录生成方法,其特征在于,所述方法包括:
对获取的聊天记录进行分词处理,并统计每个分词出现的频率;
对所述频率大于预设阈值的分词进行汇总,得到热门分词集;
对所述热门分词集中的分词按照频率的大小进行排序,生成热词榜单;
按照所述热词榜单中分词的排列顺序依次选择其中一个分词,将选择的所述分词作为检索词在所述聊天记录中检索,得到所述检索词对应的问题;
获取原始问答数据集,提取所述原始问答数据集中的每个流程节点和所述流程节点对应的语料数据,将所述语料数据的流程节点进行标记、合并,得到训练语料;
对所述训练语料进行特征编码,得到训练语料向量,利用所述训练语料对预设的多分类模型进行训练,得到问题意图分类模型;
将检索得到的所述问题输入至所述问题意图分类模型中,得到问题意图,根据所述问题意图对所述问题进行解答并生成问答记录,将所述问答记录推送到客户端。
2.如权利要求1所述的问答记录生成方法,其特征在于,所述对获取的聊天记录进行分词处理,包括:
按照预设规则对所述聊天记录进行预处理,得到初始聊天记录;
利用分词工具对所述初始聊天记录进行分词处理,得到分词聊天集;
根据预设的关键词词典,从所述分词聊天集中筛选出分词。
3.如权利要求1所述的问答记录生成方法,其特征在于,所述对获取的聊天记录进行分词处理之前,所述方法还包括:
识别出所述聊天记录对应的用户;
判断所述用户是否通过身份校验;
若所述用户未通过所述身份校验,则删除所述用户的聊天记录;
若所述用户通过所述身份校验,则保留所述用户对应的聊天记录。
4.如权利要求1所述的问答记录生成方法,其特征在于,所述按照所述热词榜单中分词的排列顺序依次选择其中一个分词,将选择的所述分词作为检索词在所述聊天记录中检索,得到所述检索词对应的问题,包括:
通过遍历操作,按照所述热词榜单中分词的排列顺序依次选择其中一个分词,将选择的所述分词作为检索词,并对所述检索词进行向量化处理,得到检索词向量;
提取所述初始聊天记录中的聊天关键词,并对所述聊天关键词进行向量化处理,得到关键词向量;
计算所述检索词向量和所述关键词向量之间的相似度,选择所述相似度大于或者等于预设的相似阈值的关键词对应的问题作为所述检索词对应的问题。
5.如权利要求1所述的问答记录生成方法,其特征在于,所述对所述训练语料进行特征编码,得到训练语料向量,包括:
对所述原始问答数据集中的训练语料进行语料总数汇总,得到语料总数;
以所述训练语料为预设矩阵的行数,以所述语料总数为所述预设矩阵的列数,构建得到初始矩阵向量;
设置所述初始矩阵向量中所述训练语料对应的列数所在的位置为第一数值,其余列数为第二数值,得到训练语料向量。
6.如权利要求1所述的问答记录生成方法,其特征在于,所述利用所述训练语料对预设的多分类模型进行训练,得到问题意图分类模型,包括:
利用所述预设的多分类模型对所述训练语料进行分类,得到一种或者多种分类意图;
标注所述原始问答数据集中的意图类别,计算所述意图类别和所述分类意图之间的重复度;
当所述重复度小于预设的分类阈值时,对所述预设的分类模型进行迭代更新,重新对所述最终表示向量进行分类;
当所述重复度大于或者等于预设的分类阈值时,得到问题意图分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于康键信息技术(深圳)有限公司,未经康键信息技术(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110429297.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:科室推荐方法、装置、电子设备及存储介质
- 下一篇:一种摆线轮齿廓设计方法