[发明专利]并购知识图谱基础图库数据采集及转换方法和装置在审
申请号: | 202211514992.0 | 申请日: | 2022-11-30 |
公开(公告)号: | CN115809344A | 公开(公告)日: | 2023-03-17 |
发明(设计)人: | 黄严;黄俊 | 申请(专利权)人: | 北交金科金融信息服务有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/289;G06F40/284;G06F16/215;G06F16/951 |
代理公司: | 成都蓉创智汇知识产权代理有限公司 51276 | 代理人: | 赵雷 |
地址: | 610000 四川省成都市中国(四川)自由贸*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 并购 知识 图谱 基础 图库 数据 采集 转换 方法 装置 | ||
1.并购知识图谱基础图库数据采集及转换方法,其特征在于,具体包括以下步骤:
从并购信息数据库中获取原始语料信息;
对原始语料信息进行数据清洗和信息提取,得到若干条具有三元组结构的语料文本;
将语料文本依次装填到事件数据表中;
将事件数据表中的数据按照基础图库数据模板转换为基础图库数据,根据基础图库数据构建并购知识图谱。
2.根据权利要求1所述的并购知识图谱基础图库数据采集及转换方法,其特征在于,并购信息数据库包括工商系统记录的文本信息和自建并购事件数据库文本信息,其中所述自建并购事件数据库文本信息为利用数据爬虫技术从网络新闻资讯中爬取的数据源中的文本信息。
3.根据权利要求2所述的并购知识图谱基础图库数据采集及转换,其特征在于,对原始语料信息进行数据清洗和信息提取包括:
将原始语料信息进行划分,以句号为划分依据,将原始语料信息划分为多条语句,将每条语句进行分词,并进行词性标注预处理,得到若干条具有主语-宾语-内容结构的初始文本;
对于每条初始文本:
抽取出初始文本中的主语作为实体一、宾语作为实体二;
抽取初始文本中的内容,组成实体一-内容-实体二的三元组结构的语料文本。
4.根据权利要求3所述的并购知识图谱基础图库数据采集及转换,其特征在于,所述基础图库数据模板包括主节点、子节点和边,每个基础图库数据的主节点、边和子节点分别对应于每条语料文本的实体一、内容和实体二。
5.根据权利要求4所述的并购知识图谱基础图库数据采集及转换,其特征在于,对基础图库数据进行知识计算,得到并购知识图谱,知识计算包括:
本体构建:从所有基础图库数据中筛选出主节点相同的所有基础图库数据作为一个本体;
数据筛选:在每个本体中,去除主节点、边和子节点均相同的基础图库数据;
本体连接:对于每个经过数据筛选的本体,合并主节点相同的所有基础图库数据,以主节点为中点,主节点-边-子节点的结构连接本体中的其他子节点;
知识推理:通过基于逻辑的推理、基于图的推理和基于深度学习的推理,对各个本体的主节点之间进行上下位关系抽取、关系缺失补齐;
图谱生成:将经过知识推理后的各个本体相互连接,形成知识图谱。
6.并购知识图谱基础图库数据采集及转换装置,其特征在于,包括:
一个或多个处理器;
存储单元,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,能使得所述一个或多个处理器实现权利要求1-5所述的并购知识图谱基础图库数据采集及转换方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北交金科金融信息服务有限公司,未经北交金科金融信息服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211514992.0/1.html,转载请声明来源钻瓜专利网。