[发明专利]多轮对话流程构建方法、装置、计算机设备及存储介质有效
| 申请号: | 202110520914.0 | 申请日: | 2021-05-13 |
| 公开(公告)号: | CN113239164B | 公开(公告)日: | 2023-07-04 |
| 发明(设计)人: | 高鹏;康维鹏;袁兰;吴飞;周伟华;高峰;潘晶 | 申请(专利权)人: | 杭州摸象大数据科技有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36;G06F16/33;G06F16/35;G06F40/289;G06F40/295;G06F18/231;G06F18/24;G10L15/22 |
| 代理公司: | 杭州知学知识产权代理事务所(普通合伙) 33356 | 代理人: | 张雯 |
| 地址: | 311121 浙江省杭州市余*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 轮对 流程 构建 方法 装置 计算机 设备 存储 介质 | ||
本发明实施例公开了多轮对话流程构建方法、装置、计算机设备及存储介质。所述方法包括:收集对话语料;对所述对话语料进行分词和识别,以得到识别结果;根据所述识别结果构建问题答案集;根据所述问题答案集采用层次聚类方式构建对话流程树。通过实施本发明实施例的方法可实现对线上数据进行有效进行自动化构建较高质量对话流程,并通过问答对挖掘方式,挖掘常规问答集。
技术领域
本发明涉及智能问答技术领域,更具体地说是指多轮对话流程构建方法、装置、计算机设备及存储介质。
背景技术
在智能对话系统中,问句的正确理解与处理是整个对话交互核心要点,而这需建立在庞大的知识库基础上的,目前知识库构建包括实体词汇、实体关系、QA(问答,QuestionAnswering)对、相似问句以及对话流程等,基本上采用人工审核与机器统计相结合的方法进行,主要集中在实体词汇、实体关系、问句的挖掘,而对话流程的自动挖掘构建,在实际应用中做的还非常有限。
而实际生产环境有海量对话语料,例如在银行系统中,都有集中式的外呼或客服坐席,经过日积月累沉淀积累,汇集下来了海量的对话语料,并且这些语料都是具有非常强烈的银行领域特性,但是,目前并没有任何办法能更深更好地利用起这些对话知识语料,来自动丰富完善智能对话系统知识库、自动构建具有领域特性对话流程。
因此,有必要设计一种新的方法,实现对线上数据进行有效进行自动化构建较高质量对话流程,并通过问答对挖掘方式,挖掘常规问答集。
发明内容
本发明的目的在于克服现有技术的缺陷,提供多轮对话流程构建方法、装置、计算机设备及存储介质。
为实现上述目的,本发明采用以下技术方案:多轮对话流程构建方法,包括:
收集对话语料;
对所述对话语料进行分词和识别,以得到识别结果;
根据所述识别结果构建问题答案集;
根据所述问题答案集采用层次聚类方式构建对话流程树。
其进一步技术方案为:所述收集对话语料,包括:
获取对话录音文件;
对所述对话录音文件进行语音识别,以得到对话流数据;
通过爬虫技术抓取问答对;
整合所述对话流数据以及问答对,以得到对话语料。
其进一步技术方案为:所述对所述对话语料进行分词和识别,以得到识别结果,包括:
利用Jieba分词工具对所述对话语料进行分词和实体识别,以得到识别结果。
其进一步技术方案为:所述根据所述识别结果构建问题答案集,包括:
根据所述识别结果构建用户问题集;
采用聚类分析方式构建所述用户问题集对应的机器人应答集;
其中,所述问题答案集包括用户问题集以及所述用户问题集对应的机器人应答集。
其进一步技术方案为:所述采用聚类分析方式构建所述用户问题集对应的机器人应答集,包括:
采用Canopy聚类算法构建所述用户问题集对应的机器人应答集。
其进一步技术方案为:所述采用Canopy聚类算法构建所述用户问题集对应的机器人应答集,包括:
确定第一相似阈值以及第二相似阈值;
初始化用户问题集,并初始化聚类结果集;
随机选择一个问题,并创建以所述问题为中心的聚类;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州摸象大数据科技有限公司,未经杭州摸象大数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110520914.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种具有视觉引导定位功能的注塑机械手
- 下一篇:全自动化角度分选装配体





