[发明专利]问答记录生成方法、装置、电子设备及存储介质在审
申请号: | 202110429297.3 | 申请日: | 2021-04-21 |
公开(公告)号: | CN113111159A | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 朱章春 | 申请(专利权)人: | 康键信息技术(深圳)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/35;G06F40/216;G06F40/289 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 问答 记录 生成 方法 装置 电子设备 存储 介质 | ||
本发明涉及数据分析技术,揭露了一种问答记录生成方法,包括提取聊天记录中的分词,并计算每一个分词出现的频率;将频率大于预设阈值的分词进行汇总,得到热门分词集,并对热门分词集中的分词进行排序处理,根据排序生成热词榜单;依次选择热词榜单中的其中一个分词,将选择的分词作为检索词在聊天记录中检索,得到检索词对应的问题;对检索得到的问题进行问题意图分类并进行解答并生成问答记录,将问答记录推送到用户端。此外,本发明还涉及区块链技术,所述热门分词集可存储于区块链的节点。本发明还提出一种问答记录生成装置、电子设备以及计算机可读存储介质。本发明可以解决将问题与问答数据库进行匹配生成问答记录时效率较低的问题。
技术领域
本发明涉及数据分析技术领域,尤其涉及一种问答记录生成方法、装置、电子设备及计算机可读存储介质。
背景技术
随着科学技术的快速发展,无论是在具有强人工运营性质的直播间还是在老师的课堂上又或者是人们的日常交流当中,提出问题并对问题进行解答这一过程都是重中之重,生成的问答记录同时也可以作为后续沟通的一个参考。
现有的问答记录生成方法通常是将获取到的问题与现有的问答数据库直接进行匹配并进行回复,并没有考虑到问题出现的频率大小,会造成重复匹配同一个或者同一类型的问题,利用这种方法生成问答记录时效率较低。
发明内容
本发明提供一种问答记录生成方法、装置及计算机可读存储介质,其主要目的在于解决将问题与问答数据库进行匹配生成问答记录时效率较低的问题。
为实现上述目的,本发明提供的一种问答记录生成方法,包括:
对获取的聊天记录进行分词处理,并统计每个分词出现的频率;
对所述频率大于预设阈值的分词进行汇总,得到热门分词集;
对所述热门分词集中的分词按照频率的大小进行排序,生成热词榜单;
按照所述热词榜单中分词的排列顺序依次选择其中一个分词,将选择的所述分词作为检索词在所述聊天记录中检索,得到所述检索词对应的问题;
获取原始问答数据集,提取所述原始问答数据集中的每个流程节点和所述流程节点对应的语料数据,将所述语料数据的流程节点进行标记、合并,得到训练语料;
对所述训练语料进行特征编码,得到训练语料向量,利用所述训练语料对预设的多分类模型进行训练,得到问题意图分类模型;
将检索得到的所述问题输入至所述问题意图分类模型中,得到问题意图,根据所述问题意图对所述问题进行解答并生成问答记录,将所述问答记录推送到客户端。
可选地,所述对获取的聊天记录进行分词处理,包括:
按照预设规则对所述聊天记录进行预处理,得到初始聊天记录;
利用分词工具对所述初始聊天记录进行分词处理,得到分词聊天集;
根据预设的关键词词典,从所述分词聊天集中筛选出分词。
可选地,所述对获取的聊天记录进行分词处理之前,所述方法还包括:
识别出所述聊天记录对应的用户;
判断所述用户是否通过身份校验;
若所述用户未通过所述身份校验,则删除所述用户的聊天记录;
若所述用户通过所述身份校验,则保留所述用户对应的聊天记录。
可选地,所述按照所述热词榜单中分词的排列顺序依次选择其中一个分词,将选择的所述分词作为检索词在所述聊天记录中检索,得到所述检索词对应的问题,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于康键信息技术(深圳)有限公司,未经康键信息技术(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110429297.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:科室推荐方法、装置、电子设备及存储介质
- 下一篇:一种摆线轮齿廓设计方法