[发明专利]一种唐卡文化知识图谱展示系统及其构建方法在审
申请号: | 202211136388.9 | 申请日: | 2022-09-19 |
公开(公告)号: | CN115687314A | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 李长哲;刘晓静 | 申请(专利权)人: | 青海大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/26;G06F16/28;G06F16/951;G06N3/0464;G06N3/08 |
代理公司: | 青海省专利服务中心 63100 | 代理人: | 周同永 |
地址: | 810000 青*** | 国省代码: | 青海;63 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文化 知识 图谱 展示 系统 及其 构建 方法 | ||
本发明公开了一种唐卡文化知识图谱展示系统及其构建方法,通过唐卡数据集的构建、唐卡文化命名实体识别、基于Bs‑Spert模型的实体及实体间关系的联合抽取及唐卡文化知识图谱展示系统搭建四个部分完成基于Web端的唐卡文化知识图谱展示系统的构建,实现了对唐卡自然语言文本的命名实体识别和关系抽取可视化查询功能,缓解当前以唐卡文化为主题的门户网站资源少,数据分散、知识浅显的窘迫困境。系统能够针对不同受众人群特点进行角色划分,并授予不同程度权限,使系统在满足不同人群的基础上增加不断改进功能。另外系统操作简单,界面简洁而丰满,适用于年龄偏大或不太擅长利用网络的用户。
技术领域
本发明涉及计算机图像描述技术领域,具体涉及一种唐卡文化知 识图谱展示系统及其构建方法。
背景技术
唐卡文化文本指在千百年的唐卡绘画发展过程中,人们通过对唐 卡绘画内容的记录、研究、描述、创作而留下来的自然语言文本,这 种自然语言文本大多是作为纸质书籍或者是口口相传的形式存在,存 在形式单一且受限于唐卡文化文本载体的局限,常常导致唐卡文化缺 失、遗漏、错误的现象。这种现象的出现无疑是对我国保护文化传承 的理念相左。由此唐卡文化文本的保护成为亟待解决的任务。
随着时代的发展,除了类似中国民协采用较为传统的出版书籍和 建档立项保护唐卡文化的方式外,以数字化的唐卡文化资源网站和百 度百科词条互联网保存方式不断涌现。其中唐卡文化资源网站的建设 主体由大学研究机构和少数民族地市图书馆扮演,但存在着由不同机 构不同地区建设资源分散、研究差异性的缺点。百度百科网站主要以 百度词条的形式展现,百度百科词条展示较为浅显单一,并不能详尽 的诠释唐卡文本中内在含义。由此,一个能够统一分散资源且深入理 解唐卡文化的解决方案的提出成为唐卡文化保护亟待解决的难题。
知识图谱根据应用场景的不同和在不同技术范畴内,所给出的知 识图谱的定义也不尽相同。由于本申请基于唐卡文化下的知识图谱构 建,主要专注于唐卡文化中的唐卡语料文本,是一种从自然语言角度 中构建知识图谱,因此从自然语言处理(NaturalLanguage Processing, NLP)的角度来看,知识图谱的构建过程可以看作是从唐卡文本中抽 取语义以及唐卡文本中的结构化信息,也就是抽取唐卡文本中的实体 以及实体间的依赖关系。简而言之,知识图谱可以被看作是以图的形 式表述现实世界的知识的工具,图中的每个结点代表一个实体,而图 中的边则代表知识图谱中两个实体间的关系。
发明内容
为了解决上述技术问题,本发明的目的是提供一种唐卡文化知识 图谱展示系统及其构建方法。
本发明保护一种唐卡文化知识图谱展示系统的构建方法,具体包 括如下步骤:
S1,唐卡知识图谱数据集构建:由唐卡文化数据集搜集整理以及 采用Brat工具对唐卡文化数据集进行标注两部分工作组成;
S1-1,数据集获取:首先,通过与唐卡文化具有强相关性的佛经 类网站针对性解析,编写对应网络爬虫,使用网络爬虫爬取数据集; 然后,采用人工方式获取数据并对补充校正;手工查阅并提取唐卡文 化强相关词条,通过OCR技术识别,进一步对上述爬取数据集补充 矫正;
S1-2,数据整理及清洗:对上述获取数据集存在数据噪声大、缺 失、重复、异常点问题进行整理及清洗,对数据缺失采用全局常量 Unknown进行填充;对数据异常点直接删除或赋为全局变量 Unknown;对数据异常点的直接删除或者异常离群点赋为全局变量Unknown;对数据重复的剔除冗余;在数据整理及清洗时要参考来自 OCR技术识别到的词条数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青海大学,未经青海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211136388.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种唐卡图像识别的方法及系统
- 下一篇:一种界面显示方法及电子设备