[发明专利]一种面向人工智能领域知识的高效智能问答系统有效
申请号: | 202110392744.2 | 申请日: | 2021-04-13 |
公开(公告)号: | CN113157885B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 曲晨帆;金连文;林上港;马骏;谭濯;刘振鑫 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06F40/35;G06F40/30;G06F40/247 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 黄卫萍 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 人工智能 领域 知识 高效 智能 问答 系统 | ||
本发明涉及一种面向人工智能领域知识的高效智能问答系统,包括准备模块和问答模块;其中,准备模块包括数据收集模块、模型训练模块和问答系统知识结构构建模块;问答模块包括输入预处理模块、基于知识库的问答模块、基于文本库的问答模块和基于知识库的问题推荐模块。本发明通过准备模块与问答模块,使得对于用户问题以及知识库问题、文本库问题的分词准确性大大增强,进而大幅度提升全问答系统整体的准确性,从而大幅度改善用户体验,实现低成本高效率高用户体验的知识问答服务。
技术领域
本发明涉及人工智能及自然语言处理技术领域,尤其涉及一种面向人工智能领域知识的高效智能问答系统。
背景技术
近年来,人工智能技术发展迅速,在教育、医疗、农业、交通等领域均具有十分广泛的应用前景。然而,获取人工智能领域的知识需要具备一定的专业基础,各行各业的从业人员缺乏一种便捷准确地获取人工智能知识的途径,使得人工智能技术在很多领域中难以普及,无形中阻碍了社会生产力的发展。人工智能领域的非结构化文本承载了该领域大量的知识,若能完成一个该领域的基于文本理解的知识问答系统,能够为人们提供高效便捷的知识获取途径,促进人工智能技术的进一步发展。
现有的知识问答系统存在下述问题:首先,信息抽取模型缺乏实体名称和实体别称的支持,前者使得相关专业术语被错误分词,进而影响搜索引擎的性能,后者缺乏对同义词问题的理解,使得后续搜索结果片面。这两者均会对问答系统的整体性能造成不利影响。其次,机器阅读理解作为一项复杂的自然语言处理任务,存在复杂度高、计算量大等问题,而且知识库的构建依赖于非结构化文本,若采用人工方式构建则耗时费力,难以形成足够规模的知识库,两者均制约了问答系统的实际部署。最后,现有的问答系统仍然缺乏高效地从跨段落、跨文档、跨形式的不同类型文本得到准确而全面的答案的能力,更缺少引导用户进一步探索领域内相关知识的能力。
发明内容
为解决现有技术所存在的技术问题,本发明提供一种面向人工智能领域知识的高效智能问答系统,通过准备模块与问答模块,使得对于用户问题以及知识库问题、文本库问题的分词准确性大大增强,进而大幅度提升全问答系统整体的准确性,从而大幅度改善用户体验,实现低成本高效率高用户体验的知识问答服务。
本发明采用以下技术方案来实现:一种面向人工智能领域知识的高效智能问答系统,包括:准备模块和问答模块;其中,准备模块包括数据收集模块、模型训练模块和问答系统知识结构构建模块;问答模块包括输入预处理模块、基于知识库的问答模块、基于文本库的问答模块和基于知识库的问题推荐模块;
准备模块通过数据收集模块,将收集到的人工智能领域的无结构化知识文本段落进行标注,并训练模型训练模块的信息抽取模块和机器阅读理解模块,同时收集或定义人工智能领域同义、不同义的问题来训练短文本匹配模型,利用问答系统知识结构构建模块,将训练好的信息抽取模型抽取出知识三元组并形成问答对,同时利用抽取出的实体名称、别称进行辅助搜索,再通过改进知识库、文本库倒序索引的构建方法来为搜索引擎提供语义,并构建知识库关键词索引;
问答模块通过输入预处理模块对用户输入的问题进行预处理,利用基于知识库的问答模块进行答案的寻找,若有答案则将答案准备返回,否则将预处理后的用户输入问题送入基于文本库的问答模块寻找并准备返回答案,并利用基于知识库的问题推荐模块向用户推荐问题,最终将答案和推荐问题一起返回给用户。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明通过信息抽取模型抽取出的实体名称和其别称来补充jieba分词的词典,使得对于用户问题以及知识库问题、文本库问题的分词准确性大大增强,进而大幅度提升全问答系统整体的准确性,从而大幅度改善用户体验。
2、本发明通过信息抽取模型抽取出的实体名称和别称的对应关系,以及从互联网上获取的近义词典,利用改进的BM25知识库粗召回模块,使得单次检索几乎不增加推理时间而同时排序所有同义不同关键词的内容,且使得文档段落对主题词词频和文档长度差异变化带来的影响更加鲁棒,使得检索效果得到提升。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110392744.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于树形结构的多标签预测方法、控制器和介质
- 下一篇:上领机折耳结构