[发明专利]一种面向新工科的教育知识图谱问答系统构建方法在审
申请号: | 202111474309.0 | 申请日: | 2021-12-06 |
公开(公告)号: | CN114117014A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 章永龙;金雨扬;朱毅;陈家合;王志;孙小兵 | 申请(专利权)人: | 扬州大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36;G06F40/295;G06N3/04 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 董旭东;陈栋智 |
地址: | 225000 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 工科 教育 知识 图谱 问答 系统 构建 方法 | ||
1.一种面向新工科的教育知识图谱问答系统构建方法,其特征在于,包括以下步骤:
步骤1)上传细分学科数据,使用OCR进行文字识别,将关键信息存入数据表,实现异构数据的知识图谱构建;
步骤2)知识补全,进行实体识别与分词和三元组抽取,对问题语义进行分析;
步骤3)答案搜索,对问题进行分类,再进行模板匹配以确定输出结果。
2.根据权利要求1所述的一种面向新工科的教育知识图谱问答系统构建方法,其特征在于,所述步骤1)具体包括:
步骤1.1)将新工科细分专业的所有课程,教学大纲以及各项所需数据作为文本上传,对文本数据进行实体抽取与属性抽取,得到一系列离散的命名实体和其属性值,从结果中提取实体之间的关联信息,将实体之间联系起来,形成网状知识结构;
步骤 1.2)对无法进行文本上传的数据,使用OCR进行文字识别后建立图片与文字的关系映射;
步骤 1.3)将学生数据与教学数据关联到已有的数据表中,导入图数据库Neo4j,完成异构数据的知识图谱构建。
3.根据权利要求2所述的一种面向新工科的教育知识图谱问答系统构建方法,其特征在于,所述步骤2)具体包括:
步骤2.1)首先将用户输入信息运用结巴分词工具进行分词,在分词后,对每个分出的词汇与图谱中节点的词汇进行匹配,如果相同则将该实体与节点划等号,并将实体识别结果放入相应模式层;
步骤2.2)如果分词结果与图谱中节点的词汇不匹配,则通过条件随机场对标签进行约束, 运用双向长短期记忆网络算法与基于转换的双向编码器表示语言框架结合预测每个字符的标签;
步骤2.3)在步骤2.1)分词的基础上,抽取实体-属性-实体的三元组,将三元组的元组链接到本体的标签上,识别出本体的模式层后,通过对模式层的关系的收集,对语料进行三元组抽取,将涉及到该节点和模式层关系的三元组加入知识图谱,最后更新词汇表。
4.根据权利要求3所述的一种面向异构数据的新工科教育知识图谱构建方法,其特征在于,所述步骤3)具体包括:
步骤3.1)在答案搜索中, 将问题分为简单问题和事件问题,将简单问题的数据分别划分成主、 谓、 宾三类, 标签分别设为 0、1、2, 然后训练一个三分类模型,最后用模板匹配的方式输出;针对事件问题, 运用模版匹配的方式, 将下属事件类的事件流程全部作为答案输出。
5.根据权利要求3所示的一种面向新工科的教育知识图谱问答系统构建方法,其特征在于,所属步骤2.2)具体包括:
首先基于转换的双向编码器表示计算该词的向量表示,对词汇进行转换的双向编码器表示框架的微调,使其可以对词语进行本体标签的识别;在此基础上,对用户输入的问句进行整体识别,即运用标签标明句子中可能为实体的词汇,获得每个字符的特征表示向量embedding后,使用双向长短期记忆网络获得每个字符的特征表示向量embedding 两侧的语义关系结构, 最后运用条件随机场模型确保结果是合法标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于扬州大学,未经扬州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111474309.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:地面卫星太阳翼收拢装星装置
- 下一篇:利用多孔纳米材料制备核酸酶的仿生催化剂