[发明专利]一种聊天机器人知识库自动构建装置及其方法在审
申请号: | 201710292116.0 | 申请日: | 2017-04-28 |
公开(公告)号: | CN107133305A | 公开(公告)日: | 2017-09-05 |
发明(设计)人: | 袁浩 | 申请(专利权)人: | 上海斐讯数据通信技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 上海硕力知识产权代理事务所31251 | 代理人: | 郭桂峰 |
地址: | 201616 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 聊天 机器人 知识库 自动 构建 装置 及其 方法 | ||
技术领域
本发明涉及人工智能技术领域,尤其涉及一种聊天机器人知识库自动构建装置及其方法。
背景技术
现今,各行业需要承担的用户咨询/反馈解答的工作越来越多,如,在互联网行业中的售后或者客服服务。随着用户数量的爆炸式增长,无法再采用人工的方式对所有用户的咨询进行一一回答,此外,用户的问题大多集中在某些特定的知识点上,人工回复很多时候都是在进行重复性地劳动,严重浪费人力,以此,基于客服服务的聊天机器人应运而生,用以辅助人工进行问题的回复。
ALICE(Artificial Linguistic Internet Computer Entity,人工语言计算机实体)是美国Richard教授基于规则实现的一个英语自动聊天机器人,其知识库根据AIML(Artificial Intelligence Markup Language,人工智能标记语言)编写,曾在2000年、2001年和2004年的勒布纳人工智能奖角逐中三次获胜,且目前有多种语言的开源版本存在。
聊天机器人答复的优劣很大程度上取决于其内部知识库的完善程度,而基于ALICE BOT的聊天机器人,知识库都是用AIML人工构建的,要达到比较好的效果,必然要求知识库很庞大;另外,考虑到语法的多样性,相同的意思可能有多种表达方法,知识库的规模会成倍的增长;此外,目前公开的中文语料库较少,导致基于ALICE BOT实现的中文聊天机器人很少或者聊天效果较差。若要重新人工构建AIML知识库,无疑工作量巨大,需要耗费大量的人力物力。
发明内容
针对上述问题,本发明提供了一种聊天机器人知识库自动构建装置及其方法,有效解决了现有聊天机器人知识库的建立需要耗费大量人力物力的技术问题。
本发明提供的技术方案如下:
一种聊天机器人知识库自动构建装置,包括:
语料获取模块,用于获取原始语料,所述原始语料中包括多个文本句;
语料分类模块,用于根据预设规则对语料获取模块获取的原始语料进行分类,得到各类别对应的子语料;
语料存储模块,用于根据语料分类模块的分类结果将各类别对应的子语料存储入知识库中相应的存储区域。
在本技术方案中,语料分类模块对获取的原始语料进行自动分类,并将分类得到的子语料存储至相应类别的存储区域,无需人工将原始语料进行分类,大大减少了人力物力,提高了知识库建立的效率。
进一步优选地,在所述语料获取模块中,获取的原始语料为问答对式语料;
在所述语料分类模块中,根据预设规则依次对原始语料问答对中的问题进行分类,所述子语料中包括各类别对应的问题及其应答内容。
在本技术方案中,获取到以问答对方式的原始语料之后,根据问答对中的问题进行分类,便于聊天机器人根据分类快速查找到相应问题的应答内容,提高聊天机器人的应答速度和应答准确率。
进一步优选地,在语料分类模块中包括:
拆分单元,用于将需要进行分类的文本句进行拆分得到若干分词;
查找单元,根据各类别中预设的关键词在拆分单元拆分得到的分词中查找;
归类单元,当查找单元查找到与某一类别中预设的关键词相同的分词,归类单元将该文本句归类至该类别。
在本技术方案中,在分类过程中,根据文本句中是否出现各类别中预设的关键词判定其所属类别,简单方便,实现原始语料中各文本句的快速分类。
进一步优选地,所述语料分类模块中还包括:
相似度运算单元,当查找单元未查找到与各类别中预设的关键词相同的分词,相似度运算单元分别计算各分词与各类别中预设的关键词之间的相似度;
判断单元,用于根据相似度运算单元的计算结果,判断是否存在与某一类别中预设的关键词之间相似度大于预设相似度的分词;若存在,所述归类单元将该文本句归类至该类别。
在本技术方案中,通过计算文本句中各分词与预设的关键字之间的相似度对文本句进行分类,进一步完善文本句分类的准确度。
进一步优选地,所述语料分类模块中还包括类别获取单元,
当判断单元判断该文本句中不存在与各类别中预设的关键词之间相似度大于预设相似度的分词,则类别获取单元获取上一文本句所属类别,归类单元将该文本句归类之上一文本句所属类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海斐讯数据通信技术有限公司,未经上海斐讯数据通信技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710292116.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据操作方法、装置及计算机可读存储介质
- 下一篇:信息流转码装置及方法