[发明专利]一种知识图谱数据抽取方法和系统在审
申请号: | 202010766824.5 | 申请日: | 2020-08-03 |
公开(公告)号: | CN111897781A | 公开(公告)日: | 2020-11-06 |
发明(设计)人: | 洪万福;钱智毅;翁秀玲 | 申请(专利权)人: | 厦门渊亭信息科技有限公司 |
主分类号: | G06F16/16 | 分类号: | G06F16/16;G06F40/279;G06F16/36 |
代理公司: | 北京鼎承知识产权代理有限公司 11551 | 代理人: | 顾可嘉;夏华栋 |
地址: | 361000 福建省厦门市软*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 知识 图谱 数据 抽取 方法 系统 | ||
1.一种知识图谱数据抽取方法,其特征在于,包括:
S1,获取待抽取的原数据;
S2,对原数据进行检查,并判断数据文件类型;
其中,所述检查包括文件格式检查和数据特征结构检查;所述文件类型包括图片类型文件、文本文件类型和富文本文件类型;
S3,若判断数据文件类型为图片类型文件,则对图片类型文件运用光学字符识别技术,识别出文件中的字符;
S4,提取经过光学字符识别技术识别后的图片类型文件、和/或文本类文件、和/或富文本类文件中的字符内容,并根据字符内容生成包含字串列表的文本数据;
S5,运用自然语言处理技术处理所述字串列表,提取所述文本数据中的实体和关系;
S6,从提取的实体和关系中抽取用于构建知识图谱的知识图谱数据。
2.如权利要求1所述的方法,其特征在于,步骤S2中,若文件为不可识别的文件类型,则将不可识别的文件从原数据中抽取,并发出告警信息。
3.如权利要求1所述的方法,其特征在于,步骤S3中,光学字符识别技术包括:对图片类型文件的图像进行降噪处理、二值化处理、字符切分、归一化处理、特征提取、降维处理、字符识别和结果优化。
4.如权利要求1所述的方法,其特征在于,步骤S4中根据字符内容生成包含字串类表的文本数据的方法包括:将字符内容按原数据的语言结构进行整理,还原成整段文字,根据整段文字生成字串列表。
5.如权利要求1-4任一项所述的方法,其特征在于,步骤S5中,运用自然语言处理技术处理所述文本数据的方法包括:对字串列表进行预处理,生成词汇列表并标记词汇属性;其中所述预处理包括:分词处理、词性标注、词形还原、停止词识别和依赖关系解析。
6.如权利要求5所述的方法,其特征在于,在步骤S5中,提取文本数据中实体和关系的方法包括:对词汇列表进行分析,提取命名实体和关系描述,并整理成实体列表和关系列表。
7.如权利要求6所述的方法,其特征在于,在步骤S6,抽取用于构建知识图谱的知识图谱数据的方法包括:
根据所述实体列表构建实体节点并标记属性,
按照所述关系列表建立节点之间的边,依据节点之间的边,生成知识图谱数据结构,并根据所述知识图谱数据结构从所述实体和关系中抽取用于构建知识图谱的知识图谱数据。
8.一种知识图谱数据抽取系统,其特征在于,包括:
数据输入管理组件,用于获取待抽取的原数据;
数据结构辨识组件,用于对原数据进行检查,并判断数据文件类型,将文件分为图片类型文件、文本类型文件、富文本类型文件、以及不可识别文件;
光学字符识别组件,用于识别图片类型文件中的字符;
文本提取组件,用于提取所述光学字符识别组件识别出的字符,以及提取文本类型文件和富文本类型文件中的字符,并形成文本数据;
自然语言处理组件,用于对文本数据中的词汇进行分类标记;
实体和关系辨识组件,用于从标记的词汇中提取出实体名词;以及实体间的关系描述;
知识图谱构建组件,用于将实体和关系转换为知识图谱数据。
9.如权利要求8所述的知识图谱数据抽取系统,其特征在于,所述原数据的类型包括:结构化数据文件、非结构化文件。
10.如权利要求8所述的知识图谱数据抽取系统,其特征在于,所述数据结构辨识组件从原数据中辨识出不可识别文件之后,抽取所述不可识别文件并发出告警信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门渊亭信息科技有限公司,未经厦门渊亭信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010766824.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种便于清理筛网的振筛机
- 下一篇:一种新型医用手套及其自动佩戴设备
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置