[发明专利]自动提取问答语料的方法、在线智能客服系统及电子设备在审
申请号: | 201811158655.6 | 申请日: | 2018-09-30 |
公开(公告)号: | CN109508367A | 公开(公告)日: | 2019-03-22 |
发明(设计)人: | 林志伟;肖龙源;蔡振华;李稀敏;刘晓葳;谭玉坤 | 申请(专利权)人: | 厦门快商通信息技术有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06Q30/02 |
代理公司: | 厦门仕诚联合知识产权代理事务所(普通合伙) 35227 | 代理人: | 乐珠秀 |
地址: | 361007 福建省厦门*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料 自动提取 电子设备 客服系统 在线智能 对话 自然语言处理技术 人工成本 人工处理 语料分割 预设规则 原始语料 工作量 | ||
本发明涉及自然语言处理技术,提供了一种自动提取问答语料的方法,所述方法包含步骤:从所述原始语料中确定出至少一组对话语料;基于预设规则识别各个所述对话语料中的疑问句;基于所述疑问句在所在所述对话语料中的位置信息,将所述对话语料分割成若干个问答片段;基于各个所述问答片段,提取所述问答语料。基于本发明所提供的自动提取问答语料的方法,可大幅度减少需要人工处理的工作量,节省了人工成本,且提升了处理速率。此外,本发明还提供了一种在线智能客服系统及电子设备。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种自动提取问答语料的方法、在线智能 客服系统及电子设备。
背景技术
随着互联网的飞速发展,人们服务意识的提高,网络客服已经普及到各行各业,深入到 日常商业服务的各个环节。
目前的网络客服系统,通常由机器客服和人工客服组成,其中机器客服一般是基于网页 的即时通讯工具,具体可基于FAQ系统来实现。
具体而言,在构建某个专门领域的机器客服系统时,需要依赖大量的语料数据,即机器 客服的知识库,其中,知识库一般是以FAQ的形态保存在系统数据库中的,主要包含提问信 息及对应的回复信息等字段,机器客服在接收到用户提出的问题时,可基于FAQ系统查找对 应的回复信息,并反馈给用户,故构建完整的FAQ数据库为机器客服技术实现的关键之一。
在构建FAQ数据库的过程中,通常会收集某个领域的聊天记录作为原始语料,首再通过 从原始语料中提取出问题信息及对应的回复信息进,得到一系列FAQ数据。
然而,目前FAQ数据的提取多数是依赖人工提取的方式来完成,由于原始语料数据量庞 大,完全依赖人工来进行提取,工作量大,人工成本高,并存在一定的低效性。
发明内容
为了解决上述问题,本发明的实施例,提供了一种自动提取问答语料的方法,所述方法 包含步骤:从所述原始语料中确定出至少一组对话语料;基于预设规则识别各个所述对话语 料中的疑问句;基于所述疑问句在所在所述对话语料中的位置信息,将所述对话语料分割成 若干个问答片段;基于各个所述问答片段,提取所述问答语料。
在一实施例中,所述基于预设规则识别各个所述对话语料中的疑问句具体包括:基于预 设字符及正则表达式的匹配,识别各个所述对话语料中的疑问句。
在一实施例中,所述基于所述疑问句在所在所述对话语料中的位置信息,将所述对话语 料分割成若干给问答片段具体包含:确定各个所述疑问句在所在的所述对话语料中出现的先 后顺序,作为所述位置信息;基于所述位置信息,将前一个所述疑问句与相邻的后一个所述 疑问句之间出现的非疑问句,与所述前一个疑问句归为同一个所述问答片段,其中所述问答 片段中的所述疑问句与所述非疑问句的先后关系与所述对话语料中的相同。
在一实施例中,所述基于各个所述问答片段,提取所述问答语料具体包含:设定所述问 答片段中的所述疑问句为问题语句;确定所述问答片段中位于所述疑问句之后的语句为答复 语句;所述问题语句与所述答复语句构成所述问答语料。
在一实施例中,所述基于各个所述问答片段,提取所述问答语料具体包含:确定所述问 答片段中各语句的发出方;确定出现在所述疑问句之后的、及对应的所述发出方与所述疑问 句的发出方不同的第一条非疑问句,以及所述第一条非疑问句之后的所有非疑问句,作为针 对所述疑问句的答复语句;合并所述疑问句及所述答复语句作为所述答复片段对应的所述问 答语料。
基于本发明实施例所提供的自动提取问答语料的方法通过将原始语料中的对话语料分别 进行分析,通过对疑问句的识别,来分割出各个对话语料中的问答片段,并基于各个问答片 段,提取出问答语料,为FAQ数据库提供基础数据,不仅可大幅度提升数据处理的速率,大 大节省了人工成本,还可以进一步基于语句发出者来更准确的确定提问语句对应的答复语句, 从而节省了后续数据清洗的工作量,保证了FAQ数据库中,数据的准确度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门快商通信息技术有限公司,未经厦门快商通信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811158655.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:资料查询方法及装置
- 下一篇:用于改述语料的数据处理方法及装置