[发明专利]并购知识图谱基础图库数据采集及转换方法和装置在审

专利信息
申请号: 202211514992.0 申请日: 2022-11-30
公开(公告)号: CN115809344A 公开(公告)日: 2023-03-17
发明(设计)人: 黄严;黄俊 申请(专利权)人: 北交金科金融信息服务有限公司
主分类号: G06F16/36 分类号: G06F16/36;G06F40/289;G06F40/284;G06F16/215;G06F16/951
代理公司: 成都蓉创智汇知识产权代理有限公司 51276 代理人: 赵雷
地址: 610000 四川省成都市中国(四川)自由贸*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 并购 知识 图谱 基础 图库 数据 采集 转换 方法 装置
【权利要求书】:

1.并购知识图谱基础图库数据采集及转换方法,其特征在于,具体包括以下步骤:

从并购信息数据库中获取原始语料信息;

对原始语料信息进行数据清洗和信息提取,得到若干条具有三元组结构的语料文本;

将语料文本依次装填到事件数据表中;

将事件数据表中的数据按照基础图库数据模板转换为基础图库数据,根据基础图库数据构建并购知识图谱。

2.根据权利要求1所述的并购知识图谱基础图库数据采集及转换方法,其特征在于,并购信息数据库包括工商系统记录的文本信息和自建并购事件数据库文本信息,其中所述自建并购事件数据库文本信息为利用数据爬虫技术从网络新闻资讯中爬取的数据源中的文本信息。

3.根据权利要求2所述的并购知识图谱基础图库数据采集及转换,其特征在于,对原始语料信息进行数据清洗和信息提取包括:

将原始语料信息进行划分,以句号为划分依据,将原始语料信息划分为多条语句,将每条语句进行分词,并进行词性标注预处理,得到若干条具有主语-宾语-内容结构的初始文本;

对于每条初始文本:

抽取出初始文本中的主语作为实体一、宾语作为实体二;

抽取初始文本中的内容,组成实体一-内容-实体二的三元组结构的语料文本。

4.根据权利要求3所述的并购知识图谱基础图库数据采集及转换,其特征在于,所述基础图库数据模板包括主节点、子节点和边,每个基础图库数据的主节点、边和子节点分别对应于每条语料文本的实体一、内容和实体二。

5.根据权利要求4所述的并购知识图谱基础图库数据采集及转换,其特征在于,对基础图库数据进行知识计算,得到并购知识图谱,知识计算包括:

本体构建:从所有基础图库数据中筛选出主节点相同的所有基础图库数据作为一个本体;

数据筛选:在每个本体中,去除主节点、边和子节点均相同的基础图库数据;

本体连接:对于每个经过数据筛选的本体,合并主节点相同的所有基础图库数据,以主节点为中点,主节点-边-子节点的结构连接本体中的其他子节点;

知识推理:通过基于逻辑的推理、基于图的推理和基于深度学习的推理,对各个本体的主节点之间进行上下位关系抽取、关系缺失补齐;

图谱生成:将经过知识推理后的各个本体相互连接,形成知识图谱。

6.并购知识图谱基础图库数据采集及转换装置,其特征在于,包括:

一个或多个处理器;

存储单元,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,能使得所述一个或多个处理器实现权利要求1-5所述的并购知识图谱基础图库数据采集及转换方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北交金科金融信息服务有限公司,未经北交金科金融信息服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211514992.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top