[发明专利]一种面向新工科的教育知识图谱问答系统构建方法在审
申请号: | 202111474309.0 | 申请日: | 2021-12-06 |
公开(公告)号: | CN114117014A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 章永龙;金雨扬;朱毅;陈家合;王志;孙小兵 | 申请(专利权)人: | 扬州大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36;G06F40/295;G06N3/04 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 董旭东;陈栋智 |
地址: | 225000 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 工科 教育 知识 图谱 问答 系统 构建 方法 | ||
本发明公开了一种面向新工科的教育知识图谱问答系统构建方法,包括以下步骤:1)上传细分学科数据,使用OCR进行文字识别,将关键信息存入数据表,实现异构数据的知识图谱构建;2)知识补全,进行实体识别与分词和三元组抽取,对问题语义进行分析;3)答案搜索,对问题进行分类,再进行模板匹配以确定输出结果。本发明能够利用实体识别三元组抽取等方法,实现对问题内容的精准识别,达到对问题精确有效回答的目的。
技术领域
本发明涉及知识图谱以及问答系统领域,特别涉及一种面向新工科的教育知识图谱问答系统构建方法。
背景技术
OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
信息技术的发展不断推动着互联网技术的变革,Web技术作为互联网时代的标志性技术,正处于这场技术变革的核心。从网页的链接到数据的链接,Web技术正朝着语义网络演变。目前, 同一领域知识分散存储在不同地点, 且以不同的数据类型进行存储, 导致该领域用户获取领域知识困难, 且很难实现共享,因此需要构建一个知识图谱将其结构化。由于领域内用户的数量十分庞大, 而遇到的问题大部分都是重复的,在为用户进行解答时,大量重复的问题会造成时间的浪费,并且效率低下。
发明内容
本发明的目的是克服现有技术缺陷,提供一种面向新工科的教育知识图谱问答系统构建方法,以期能利用知识图谱,机器学习等方法,达到构建智能化问答系统的目的。
本发明的目的是这样实现的: 一种面向新工科的教育知识图谱问答系统构建方法,其特征在于,包括以下步骤:
步骤1)上传细分学科数据,使用OCR进行文字识别,将关键信息存入数据表,实现异构数据的知识图谱构建;
步骤2)知识补全,进行实体识别与分词和三元组抽取,对问题语义进行分析;
步骤3)答案搜索,对问题进行分类,再进行模板匹配以确定输出结果。
作为本发明的进一步限定,所述步骤1)具体包括:
步骤1.1)将新工科细分专业的所有课程,教学大纲以及各项所需数据作为文本上传,对文本数据进行实体抽取与属性抽取,得到一系列离散的命名实体和其属性值,从结果中提取实体之间的关联信息,将实体之间联系起来,形成网状知识结构;
步骤 1.2)对无法进行文本上传的数据,使用OCR进行文字识别后建立图片与文字的关系映射;
步骤 1.3)将学生数据与教学数据关联到已有的数据表中,导入图数据库Neo4j,完成异构数据的知识图谱构建。
作为本发明的进一步限定,所述步骤2)具体包括:
步骤2.1)首先将用户输入信息运用结巴分词工具进行分词,在分词后,对每个分出的词汇与图谱中节点的词汇进行匹配,如果相同则将该实体与节点划等号,并将实体识别结果放入相应模式层;
步骤2.2)如果分词结果与图谱中节点的词汇不匹配,则通过条件随机场对标签进行约束, 运用双向长短期记忆网络算法与基于转换的双向编码器表示语言框架结合预测每个字符的标签;
步骤2.3)在步骤2.1)分词的基础上,抽取实体-属性-实体的三元组,将三元组的元组链接到本体的标签上,识别出本体的模式层后,通过对模式层的关系的收集,对语料进行三元组抽取,将涉及到该节点和模式层关系的三元组加入知识图谱,最后更新词汇表。
作为本发明的进一步限定,所述步骤3)具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于扬州大学,未经扬州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111474309.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:地面卫星太阳翼收拢装星装置
- 下一篇:利用多孔纳米材料制备核酸酶的仿生催化剂