[发明专利]一种唐卡文化知识图谱展示系统及其构建方法在审
| 申请号: | 202211136388.9 | 申请日: | 2022-09-19 |
| 公开(公告)号: | CN115687314A | 公开(公告)日: | 2023-02-03 |
| 发明(设计)人: | 李长哲;刘晓静 | 申请(专利权)人: | 青海大学 |
| 主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/26;G06F16/28;G06F16/951;G06N3/0464;G06N3/08 |
| 代理公司: | 青海省专利服务中心 63100 | 代理人: | 周同永 |
| 地址: | 810000 青*** | 国省代码: | 青海;63 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文化 知识 图谱 展示 系统 及其 构建 方法 | ||
1.一种唐卡文化知识图谱展示系统的构建方法,其特征在于,具体包括如下步骤:
S1,唐卡知识图谱数据集构建:由唐卡文化数据集搜集整理以及采用Brat工具对唐卡文化数据集进行标注两部分工作组成;
S1-1,数据集获取:首先,通过与唐卡文化具有强相关性的佛经类网站针对性解析,编写对应网络爬虫,使用网络爬虫爬取数据集;然后,采用人工方式获取数据并对补充校正;手工查阅并提取唐卡文化强相关词条,通过OCR技术识别,进一步对上述爬取数据集补充矫正;
S1-2,数据整理及清洗:对上述获取数据集存在数据噪声大、缺失、重复、异常点问题进行整理及清洗,对数据缺失采用全局常量Unknown进行填充;对数据异常点直接删除或赋为全局变量Unknown;对数据异常点的直接删除或者异常离群点赋为全局变量Unknown;对数据重复的剔除冗余;在数据整理及清洗时要参考来自OCR技术识别到的词条数据;
S1-3,数据集标注:采用Brat标注工具来实现数据集标注,首先,对待提取唐卡文本数据生成同名后缀为ann文件,然后在annotation.conf文件中配置初始实体和实体关系以及所在文本的位置信息;并选用BIOES作为实体的标注方式;在获得上述实体及实体关系的基础上,按照训练集:测试集=8:2的比例划分数据集;在Windows环境下采用VMware虚拟机软件安装Ubuntu系统环境,进而部署Brat标注工具;
S2,唐卡文化命名实体识别:采用Bi-Lstm+CRF模型进行唐卡命名实体识别,在Bi-Lstm模型的基础上引入条件随机场,将Bi-Lstm作为特征提取器,该模型最终的输出看做条件随机场模型的输入,利用条件随机场获得标注序列间状态转移规则;最后使用随机梯度下降算法进行网络的学习;
S3,基于Bs-Spert模型的实体及实体间关系的联合抽取:
S3-1,Bs-Spert模型构建:该模型构成主要为Bert预训练模型模块、集束搜索模块、跨度分类模块、跨度过滤模块及关系分类模块;用Bert预训练模型作为Bs-Spert模型基础展开面向唐卡文本实体和实体间关系的联合抽取;
S3-2,Bs-Spert模型训练:Bs-Spert模型在步骤2唐卡文本数据集构建的基础上进行训练,Bert预训练模型采用Bert-Base-Chinese;
S3-3,唐卡文本实体和实体联合抽取任务实验:首先,测试Bs-Spert模型在不同集束宽度Beam Width影响下的性能;然后,通过测试不同池化函数在跨度分类模块上的Precision、Recall、F1-Score值来选择池化函数;最后,在前两步结果的基础上,与信息抽取中经典模型Bert-CNN以及LSTM-RNN进行横向比较,得出Bs-Spert模型在唐卡文化数据集上的实验性能;
S4,唐卡文化知识图谱展示系统的搭建:首先,将唐卡文化知识图谱的存储由唐卡文化实体导入和唐卡文化实体间关系两个步骤将唐卡文化知识保存进Neo4j图数据库中;然后,由系统需求分析、系统设计、系统测试三个步骤完成唐卡文化知识图谱web端展示系统的搭建。
2.根据权利要求1所述的一种唐卡文化知识图谱展示系统的构建方法,其特征在于,所述步骤S3-3中,不同集束宽度Beam Width设置为3、5、7、9、11;不同的池化函数为AveragePooling、Sum Pooling以及Max Pooling。
3.根据权利要求1所述的一种唐卡文化知识图谱展示系统的构建方法,其特征在于,所述步骤S4中,所述需求分析包括界面需求分析和功能需求分析;所述系统设计包括界面设计和功能设计;所述界面设计包括登录界面和功能界面;所述系统测试包括登录测试和功能测试,所述登录测试包括游客模式、用户模式和管理管模式;功能测试包括唐卡命名实体识别、唐卡实体查询、唐卡实体关系查询及增添实体或实体关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青海大学,未经青海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211136388.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种唐卡图像识别的方法及系统
- 下一篇:一种界面显示方法及电子设备





