[发明专利]一种基于海量文本数据的人事关系知识图谱构建方法在审

专利信息
申请号: 201910539129.2 申请日: 2019-06-20
公开(公告)号: CN110245244A 公开(公告)日: 2019-09-17
发明(设计)人: 吴漾;王鹏宇;郭仁超;方继宇;孔庆波;柳林溪 申请(专利权)人: 贵州电网有限责任公司
主分类号: G06F16/36 分类号: G06F16/36;G06F16/901;G06Q10/10
代理公司: 贵阳中新专利商标事务所 52100 代理人: 胡绪东
地址: 550002 贵*** 国省代码: 贵州;52
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 图谱 海量文本数据 计算实体 时间实体 事件实体 图谱构建 构建 数据库构建 关系数据 海量数据 距离判断 实体关系 文本内容 挖掘 解析 数据库 发现
【说明书】:

发明公开了一种基于海量文本数据的人事关系知识图谱构建方法,该方法包括步骤:解析海量word数据,提取所需文本内容;挖掘事件、人、部门及时间实体;计算实体距离,判断实体关系;数据插入Neo4j构建知识图谱。本发明通过挖掘海量数据,得到人名实体、部门实体、事件实体和时间实体,通过计算实体之间的距离判断事件实体的所属是人还是部门,及时间,最后将发现的关系数据插入Neo4j数据库,构建知识图谱,通过数据库构建的知识图谱,可以发现人与事的关系,人与人的关系。

技术领域

本发明属于人事关系提取技术领域,涉及一种基于海量文本数据的人事关系知识图谱构建方法。

背景技术

现有技术有实体发现算法,但是并没有事件实体的发现,没有事件,关联部门或人,还有时间的组合。

发明内容

本发明要解决的技术问题是:提供一种基于海量文本数据的人事关系知识图谱构建方法,以解决现有技术中存在的问题。

本发明采取的技术方案为:一种基于海量文本数据的人事关系知识图谱构建方法,该方法包括以下步骤:

(1)解析海量word数据,提取所需文本内容;

遍历所有文件,找到word文件,将word文件全部转化为html文件,解决加密word文档的麻烦,通过爬虫方式,提取所有的文本数据;

(2)挖掘事件、人、部门及时间实体;

通过结巴分词,添加自定义词库,标注人名为:per,部门名为:dep,通过正则表达式得到时间,加入专有名词库,例如:(信息管理系统:sys),分词后专有名词前或后2个词,如果有动词v,则构成一个事件实体,例如:信息管理系统的推广;

(3)计算实体距离,判断实体关系;

在一句话中,正则表达式匹配出一个时间实体,时间实体第一个字在这句话中的位置,这句话中如果出现多个事件实体,所有的事件实体的时间就这个时间实体,出现人名实体或部门实体,计算人名实体第一个字的位置与事件实体出现的第一个之间的距离,距离最小的就是事件实体的所属实体;

(4)数据插入Neo4j构建知识图谱;

得到一个关系数据,关系数据包括事件实体、时间实体、人名实体或部门名实体,将关系数据插入Neo4j数据库中,构建知识图谱。

本发明的有益效果:与现有技术相比,本发明通过挖掘海量数据,得到人名实体、部门实体、事件实体和时间实体,通过计算实体之间的距离判断事件实体的所属是人还是部门,及时间,最后将发现的关系数据插入Neo4j数据库,构建知识图谱,通过数据库构建的知识图谱,可以发现人与事的关系,人与人的关系。

附图说明

图1为提取文本内容流程示意图;

图2为挖掘事件、人、部门及时间实体流程示意图;

图3为判断实体关系流程示意图;

图4为构建知识图谱流程示意图;

图5为实例图;

具体实施方式

下面结合附图及具体的实施例对本发明进行进一步介绍。

实施例1:如图1-5所示,一种基于海量文本数据的人事关系知识图谱构建方法,该方法包括以下步骤:

(1)解析海量word数据,提取所需文本内容;

遍历所有文件,找到word文件,将word文件全部转化为html文件,解决加密word文档的麻烦,通过爬虫方式,提取所有的文本数据,通过将稳步转化为,如图1所示;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州电网有限责任公司,未经贵州电网有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910539129.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top