[发明专利]一种中国古典园林信息抽取方法在审
| 申请号: | 202011450290.1 | 申请日: | 2020-12-09 | 
| 公开(公告)号: | CN112463988A | 公开(公告)日: | 2021-03-09 | 
| 发明(设计)人: | 刘耀忠;黄亦工;王亚弟;常少辉;吕洁;孙萌;费晓飞;谢帅 | 申请(专利权)人: | 中国园林博物馆北京筹备办公室;北京八亿时空信息工程有限公司 | 
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/33;G06F16/335;G06N3/04 | 
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 | 
| 地址: | 10007*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 中国 古典 园林 信息 抽取 方法 | ||
本发明提供一种中国古典园林信息抽取方法,包括如下步骤:1、根据输入计算得出字向量嵌入序列;2、对该序列进行Bi‑LSTM编码,即双向长短期记忆编码;3、执行状态转换,先判断若状态到达终态,则已抽取完实体和关系信息,结束,否则,根据概率计算,进入下一步;4、选择一种实体抽取状态转换动作,或者选择一种关系抽取状态转换动作;5、执行完毕后均返回第3步,最终得出抽取到的实体和关系。本发明的技术方案主要有下列技术优点:1、首次提出针对中国古典园林领域知识的信息抽取算法;2、提高信息的利用率和执行效率;3、可广泛适用于全国古典园林。
技术领域
本发明涉及处理自然语言数据和信息检索及其数据库结构技术领域,尤其涉及一种中国古典园林信息抽取方法。
背景技术
中国古典园林以其精湛的造园技艺和深厚的文化内涵享誉世界,是中国传统文化的重要组成部分。对其进行保护与传承的有效手段,是应用现代信息技术实现数字化。实现数字化的一个重要基础是实现有关数据在计算机中的信息存储。在计算机中存储大量的园林历史档案、视频、图片、文字材料等数据,面临最大的挑战,是如何组织海量的非结构化数据,以利于实现高效的信息检索。目前最能支持高效信息检索的数据存储技术当属知识图谱。知识图谱(Knowledge Graph,KG)用图结构存储知识,通过描述真实世界中存在的各种实体或概念及其关系,构成一张巨大的语义网络图,图中节点表示实体或概念,边则由属性或关系构成。知识图谱通常用三元组表示,三元组的基本形式主要包括(实体1-关系-实体2)和(实体-属性-属性值)等。
现有著名的知识图谱有谷歌、微软、百度、搜狗等公司建立的知识图谱,以及开放的中文知识图谱(OpenKG)等,它们都存储了上亿数量级的实体个数。中国科学院自动化研究所在CASIA-KB项目中,通过抽取百度百科和互动百科,构建了中国旅游景点中文知识图谱,该图谱可用于地理、生活、娱乐等应用。南京大学在Clinga项目中,以中文维基百科为数据源,手工构建了一个新的地理本体,对各种自然地理和人文地理实体进行分类,并自动与现有知识库进行链接,所得到的中文地理知识图谱现包含50多万个中文地理实体,并可公开访问。
但是,经检索发现,现有知识图谱均不包含中国古典园林的系统知识。必须自行构建中国古典园林知识图谱。
构建知识图谱的核心是信息抽取。现有很多工具可以从结构化数据、半结构化数据和非结构化数据中抽取信息获取知识。
D2RQ是一个将关系数据库转换为虚拟RDF数据库的工具,包括D2R Server、D2RQEngine和D2RQ Mapping Language三个组件。但难与知识建模结果结合与映射,也难同其他类型知识进行融合,并难支持大规模数据映射与增量映射。
Lixtio和WIE可生成网页包装器,从网页数据中获取知识,但主要针对早期静态页面开发,还需要扩展支持动态页面。
DeepDive与Snorkel提供了一套面向特定关系基于远程监督学习的抽取框架,使用现有知识库和规则定义来自动生成语料,自动完成模型的训练过程,并使用机器学习算法减少噪音和不确定性,用户可用规则影响学习过程以提升结果质量。DeepKE是浙江大学开发的关系抽取工具,使用了卷积神经网络、循环神经网络、注意力机制网络、图卷积神经网络、胶囊神经网络和语言预训练模型等多种深度学习算法。但DeepDive、Snorkel和DeepKE仅用于关系抽取,未提供针对概念、实体、事件等知识的抽取功能。
现有的知识元素(实体、关系)抽取技术与方法往往是在限定领域、主题的数据集上进行,虽然取得了较好的效果,但由于制约条件较多,方法的可扩展能力不够强,未能很好地适应中国古典园林信息抽取需求。
知识抽取技术的首要任务是命名实体识别。现有一般技术主要识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。多数研究工作只针对识别人名、地名、机构名、专有名词等。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国园林博物馆北京筹备办公室;北京八亿时空信息工程有限公司,未经中国园林博物馆北京筹备办公室;北京八亿时空信息工程有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011450290.1/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
 - 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
 - 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
 - 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
 - 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
 - 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
 - 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
 - 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
 - 信息终端,信息终端的信息呈现方法和信息呈现程序
 - 信息创建、信息发送方法及信息创建、信息发送装置
 





