[发明专利]一种基于知识图谱的井场试验数据处理方法及装置有效
| 申请号: | 202110719605.6 | 申请日: | 2021-06-28 |
| 公开(公告)号: | CN113377963B | 公开(公告)日: | 2023-08-11 |
| 发明(设计)人: | 田飞;底青云;郑文浩;王中兴;杨永友;张文秀;裴仁忠 | 申请(专利权)人: | 中国科学院地质与地球物理研究所 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/253;G06F40/295;G06Q50/02 |
| 代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 张德斌;姚亮 |
| 地址: | 100029 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 知识 图谱 井场 试验 数据处理 方法 装置 | ||
1.一种基于知识图谱的井场试验数据处理方法,其特征在于,包括:
对接收的井场试验历史数据进行格式识别,以生成格式识别结果;
根据格式识别结果建立思维导图;
根据所述思维导图生成所述井场试验历史数据的知识图谱;
根据所述知识图谱处理井场试验历史数据以及井场试验新数据;
所述对接收的井场试验历史数据进行格式识别,以生成格式识别结果,包括:
接收并解析用户通过网络请求发送的文件二进制流及附加的操作命令;从命令参数中提取文件名、操作对象类别以及文件格式的信息;扫描目标目录是否存在与提取的文件格式相对应的文件夹,如果确定不存在与提取的文件格式相对应的文件夹,则创建与该文件格式对应的新文件夹,并且在新创建的文件夹下写入相应的文件以生成异构融合数据库,
所述根据格式识别结果建立思维导图包括:
根据所述格式识别结果确定所述井场试验历史数据的关键词;
根据多个关键词以及预设的井场试验术语词典建立具有多层级关系的数据存储库;
根据所述数据存储库建立所述思维导图;
所述格式识别结果包括:结构化数据、半结构化数据以及非结构化数据;所述非结构化数据包括:技术文档、图片/音视频、仪器设备台账、实钻数据;
所述根据所述格式识别结果确定所述井场试验历史数据的关键词,包括:
对所述结构化数据进行语法分析,以确定所述结构化数据的关键词;
对所述半结构化数据以及非结构化数据的标签进行标定,以确定所述半结构化数据以及非结构化数据的关键词;
所述对所述结构化数据进行语法分析,以确定所述结构化数据的关键词,具体包括:根据所述井场试验术语词典对所述结构化数据进行术语抽取;在抽取结果中,选取出现频数大于预设次数的术语;根据所述出现频数大于预设次数的术语生成所述结构化数据的特征向量;根据所述特征向量生成所述结构化数据的关键词;
所述对所述半结构化数据以及非结构化数据的标签进行标定,以确定所述半结构化数据以及非结构化数据的关键词,包括:计算所述半结构化数据以及非结构化数据与所述井场试验术语词典的字面文本相似度;根据所述字面文本相似度,从所述半结构化数据以及非结构化数据中选取一部分标定为标签;
其中,通过下述公式选定字面文本相似度最高的待匹配词B作为待标定数据所对应的标签,并将所述标签确定为所述关键词从而实现半结构化数据以及非结构化数据的数据抽取;
其中,sim代表所述字面文本相似度,xsword代表待匹配词A与待匹配词B所含有的相同的字的个数;ctrlword代表待匹配词A所含有的字的总个数;keyword代表待匹配词B所含有的字的总个数;dp代表位置系数,表示待匹配词A与待匹配词B的总字数的比值;代表待匹配词A与待匹配词B所含有的相同的字在待匹配词A中所处位置的权重之和;代表待匹配词A与待匹配词B所含有的相同的字在待匹配词B中所处位置的权重之和;
所述根据所述思维导图生成所述井场试验历史数据的知识图谱,具体包括:根据所述思维导图对所述格式识别结果进行粒度实体识别,以生成识别结果;根据所述识别结果建立所述井场试验历史数据的知识层级;根据所述识别结果提取所述井场试验历史数据的实体数据;根据所述知识层级以及实体数据生成所述知识图谱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院地质与地球物理研究所,未经中国科学院地质与地球物理研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110719605.6/1.html,转载请声明来源钻瓜专利网。





