[发明专利]一种中国古典园林信息抽取方法在审

专利信息
申请号: 202011450290.1 申请日: 2020-12-09
公开(公告)号: CN112463988A 公开(公告)日: 2021-03-09
发明(设计)人: 刘耀忠;黄亦工;王亚弟;常少辉;吕洁;孙萌;费晓飞;谢帅 申请(专利权)人: 中国园林博物馆北京筹备办公室;北京八亿时空信息工程有限公司
主分类号: G06F16/36 分类号: G06F16/36;G06F16/33;G06F16/335;G06N3/04
代理公司: 暂无信息 代理人: 暂无信息
地址: 10007*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 中国 古典 园林 信息 抽取 方法
【说明书】:

发明提供一种中国古典园林信息抽取方法,包括如下步骤:1、根据输入计算得出字向量嵌入序列;2、对该序列进行Bi‑LSTM编码,即双向长短期记忆编码;3、执行状态转换,先判断若状态到达终态,则已抽取完实体和关系信息,结束,否则,根据概率计算,进入下一步;4、选择一种实体抽取状态转换动作,或者选择一种关系抽取状态转换动作;5、执行完毕后均返回第3步,最终得出抽取到的实体和关系。本发明的技术方案主要有下列技术优点:1、首次提出针对中国古典园林领域知识的信息抽取算法;2、提高信息的利用率和执行效率;3、可广泛适用于全国古典园林。

技术领域

本发明涉及处理自然语言数据和信息检索及其数据库结构技术领域,尤其涉及一种中国古典园林信息抽取方法。

背景技术

中国古典园林以其精湛的造园技艺和深厚的文化内涵享誉世界,是中国传统文化的重要组成部分。对其进行保护与传承的有效手段,是应用现代信息技术实现数字化。实现数字化的一个重要基础是实现有关数据在计算机中的信息存储。在计算机中存储大量的园林历史档案、视频、图片、文字材料等数据,面临最大的挑战,是如何组织海量的非结构化数据,以利于实现高效的信息检索。目前最能支持高效信息检索的数据存储技术当属知识图谱。知识图谱(Knowledge Graph,KG)用图结构存储知识,通过描述真实世界中存在的各种实体或概念及其关系,构成一张巨大的语义网络图,图中节点表示实体或概念,边则由属性或关系构成。知识图谱通常用三元组表示,三元组的基本形式主要包括(实体1-关系-实体2)和(实体-属性-属性值)等。

现有著名的知识图谱有谷歌、微软、百度、搜狗等公司建立的知识图谱,以及开放的中文知识图谱(OpenKG)等,它们都存储了上亿数量级的实体个数。中国科学院自动化研究所在CASIA-KB项目中,通过抽取百度百科和互动百科,构建了中国旅游景点中文知识图谱,该图谱可用于地理、生活、娱乐等应用。南京大学在Clinga项目中,以中文维基百科为数据源,手工构建了一个新的地理本体,对各种自然地理和人文地理实体进行分类,并自动与现有知识库进行链接,所得到的中文地理知识图谱现包含50多万个中文地理实体,并可公开访问。

但是,经检索发现,现有知识图谱均不包含中国古典园林的系统知识。必须自行构建中国古典园林知识图谱。

构建知识图谱的核心是信息抽取。现有很多工具可以从结构化数据、半结构化数据和非结构化数据中抽取信息获取知识。

D2RQ是一个将关系数据库转换为虚拟RDF数据库的工具,包括D2R Server、D2RQEngine和D2RQ Mapping Language三个组件。但难与知识建模结果结合与映射,也难同其他类型知识进行融合,并难支持大规模数据映射与增量映射。

Lixtio和WIE可生成网页包装器,从网页数据中获取知识,但主要针对早期静态页面开发,还需要扩展支持动态页面。

DeepDive与Snorkel提供了一套面向特定关系基于远程监督学习的抽取框架,使用现有知识库和规则定义来自动生成语料,自动完成模型的训练过程,并使用机器学习算法减少噪音和不确定性,用户可用规则影响学习过程以提升结果质量。DeepKE是浙江大学开发的关系抽取工具,使用了卷积神经网络、循环神经网络、注意力机制网络、图卷积神经网络、胶囊神经网络和语言预训练模型等多种深度学习算法。但DeepDive、Snorkel和DeepKE仅用于关系抽取,未提供针对概念、实体、事件等知识的抽取功能。

现有的知识元素(实体、关系)抽取技术与方法往往是在限定领域、主题的数据集上进行,虽然取得了较好的效果,但由于制约条件较多,方法的可扩展能力不够强,未能很好地适应中国古典园林信息抽取需求。

知识抽取技术的首要任务是命名实体识别。现有一般技术主要识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。多数研究工作只针对识别人名、地名、机构名、专有名词等。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国园林博物馆北京筹备办公室;北京八亿时空信息工程有限公司,未经中国园林博物馆北京筹备办公室;北京八亿时空信息工程有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011450290.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top