[发明专利]一种基于海量文本数据的人事关系知识图谱构建方法在审
申请号: | 201910539129.2 | 申请日: | 2019-06-20 |
公开(公告)号: | CN110245244A | 公开(公告)日: | 2019-09-17 |
发明(设计)人: | 吴漾;王鹏宇;郭仁超;方继宇;孔庆波;柳林溪 | 申请(专利权)人: | 贵州电网有限责任公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/901;G06Q10/10 |
代理公司: | 贵阳中新专利商标事务所 52100 | 代理人: | 胡绪东 |
地址: | 550002 贵*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于海量文本数据的人事关系知识图谱构建方法,该方法包括步骤:解析海量word数据,提取所需文本内容;挖掘事件、人、部门及时间实体;计算实体距离,判断实体关系;数据插入Neo4j构建知识图谱。本发明通过挖掘海量数据,得到人名实体、部门实体、事件实体和时间实体,通过计算实体之间的距离判断事件实体的所属是人还是部门,及时间,最后将发现的关系数据插入Neo4j数据库,构建知识图谱,通过数据库构建的知识图谱,可以发现人与事的关系,人与人的关系。 | ||
搜索关键词: | 图谱 海量文本数据 计算实体 时间实体 事件实体 图谱构建 构建 数据库构建 关系数据 海量数据 距离判断 实体关系 文本内容 挖掘 解析 数据库 发现 | ||
【主权项】:
1.一种基于海量文本数据的人事关系知识图谱构建方法,其特征在于:该方法包括以下步骤:(1)解析海量word数据,提取所需文本内容;遍历所有文件,找到word文件,将word文件全部转化为html文件,解决加密word文档的麻烦,通过爬虫方式,提取所有的文本数据;(2)挖掘事件、人、部门及时间实体;通过结巴分词,添加自定义词库,标注人名为:per,部门名为:dep,通过正则表达式得到时间,加入专有名词库,分词后专有名词前或后2个词,如果有动词v,则构成一个事件实体;(3)计算实体距离,判断实体关系;在一句话中,正则表达式匹配出一个时间实体,时间实体第一个字在这句话中的位置,这句话中如果出现多个事件实体,所有的事件实体的时间就这个时间实体,出现人名实体或部门实体,计算人名实体第一个字的位置与事件实体出现的第一个之间的距离,距离最小的就是事件实体的所属实体;(4)数据插入Neo4j构建知识图谱;得到一个关系数据,关系数据包括事件实体、时间实体、人名实体或部门名实体,将关系数据插入Neo4j数据库中,构建知识图谱。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州电网有限责任公司,未经贵州电网有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910539129.2/,转载请声明来源钻瓜专利网。