[发明专利]一种基于学术文献构建的知识图谱算法在审
| 申请号: | 201911383312.4 | 申请日: | 2019-12-28 |
| 公开(公告)号: | CN111241293A | 公开(公告)日: | 2020-06-05 |
| 发明(设计)人: | 贾新志 | 申请(专利权)人: | 上海骥灏网络股份有限公司 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/289;G06F40/295 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 200942 上海市*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 学术 文献 构建 知识 图谱 算法 | ||
1.一种基于学术文献构建的知识图谱算法,其特征在于,包括以下步骤:
S1、获取原始数据信息;
S2、对原始数据信息进行存储以及处理;
S3、根据处理后的原始数据信息,建立知识图谱初次构架;
S4、知识图谱初次构架进行知识更新;
S5、对S4进行多次操作,实现知识图谱初次构架多次更新;S6、完成知识图谱的建立;
其中,在S4中,知识更新包括以下步骤:
S101、从网站获取最新数据信息作为参照实体;
S102、抽取图谱中的现有实体,作为现有实体;
S103、将参照实体与现有实体进行比对;
S104、如果,在S103中的比对结果显示无误,则以参照实体作为最终标准的实体;如果,在S103中的比对结果显示部分相同,则以参照实体作为最终标准的实体;如果在S103中的比对结果显示完全不同,则将参照实体与现有实体均发送至服务器,进行人工判断审核,人工审核后,选出最终标准的实体;
S105、知识图谱初次构架根据S104中选出的最终标准的实体进行数据信息的更新,以完成知识更新过程。
2.根据权利要求1的知识图谱的构建算法,其特征在于,S1中,原始数据包括:在期刊、论文、专利、百科、词典作为语料来源而获取的数据信息,将作为原始数据;在社交网站上的热门标题以及搜索引擎上的热搜词汇为起点进行搜索而获取的数据信息,将作为原始数据;在以国家官网、企业官网以及其他正规机构的官网上获取的信息,将作为原始数据;在各个专业、职业的获取的权威性信息,将作为原始数据。
3.根据权利要求1的知识图谱的构建算法,其特征在于,S2中,原始数据信息的存储和处理包括数据存储模块、模型编辑模块、并发控制模块、权限控制模块、数据验证模块和自动构建模块;
数据存储模块,用于存储结构化数据、半结构化数据和非结构化数据;
模型编辑模块,用于编辑知识模型的概念、实体、属性、层次关系以及概念-实体关系;
并发控制模块,用于在数据库系统中根据事务隔离级别来对数据进行并发编辑;
权限控制模块,用于校验用户登录信息,以控制不同编辑层面的权限。
4.根据权利要求1的知识图谱的构建算法,其特征在于,在S101中,按照以下方式抽取实体:
S201、对抓取到的标题先使用命名实体识别,抽取出命名实体;
S202、利用分词技术,从标题中获取识别不到的候选实体词列表;
S203、对候选实体词进行词性标注,筛去无实际意义的候选词汇,然后在百科网站上验证候选词是否是实体词,把实体词和抽取的命名实体作为参照实体。
5.根据权利要求1的知识图谱的构建算法,其特征在于,在S103中,包括数据验证处理模块;数据验证处理模块,用于验证实体的完整性和一致性,并备份和导出数据,以及实现实体识别与实体消歧。
6.根据权利要求1的知识图谱的构建算法,其特征在于,在S2中,数据信息采用图数据库进行存储。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海骥灏网络股份有限公司,未经上海骥灏网络股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911383312.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于数据保护设备的测试方法和装置以及存储介质
- 下一篇:一种双电源切换箱





