[发明专利]一种企业外部数据采集与分析系统在审
申请号: | 202110372832.6 | 申请日: | 2021-04-07 |
公开(公告)号: | CN112950293A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 胡杨;刘军恺;李玮;戴萍 | 申请(专利权)人: | 华能四川水电有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06F16/25;G06F16/215;G06F16/9035 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 叶明博 |
地址: | 610041 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 企业 外部 数据 采集 分析 系统 | ||
1.一种企业外部数据采集与分析系统,其特征在于,包括:
用户界面,用于用户与系统间交互,包括设置系统参数、控制抓取操作、展示和分析结果、导出结果;
抓取模块,用于从数据源按照配置参数抓取原始数据,并将抓取到的原始数据发送至解析模块处理;
解析模块,用于为不同的数据源配置不同的解析方式,从抓取到的原始数据中解析出目标信息,获得结构化数据,以可序列化的类的实例进行表达,同时存储原始数据与配置参数;
分析模块,用于将当前解析结果与历史解析结果进行比对,生成第一结果列表与第二结果列表,以可序列化的类的实例进行表达,对第一结果列表与第二结果列表过滤,将过滤的结果去重后存储在过滤列表;系统在收到第一结果列表、第二结果列表与过滤结果条目请求时,调用浏览器打开其对应的原始数据来源网页;
存储模块,用于:
系统状态的自动存储:系统状态包括抓取模块、解析模块、分析模块的状态,将系统状态表示为类的实例,并将该实例序列化后通过状态文件存储到文件系统;系统启动时,检测该状态文件是否存在,如状态文件不存在,系统以默认配置启动;如状态文件存在,系统读取状态文件并进行反序列化,恢复上次退出时的系统状态;
分析结果的导出:在用户请求导出第一结果列表、第二结果列表与二次过滤结果条目时,调用应用程序接口导出文件;
抓取模块、解析模块、分析模块依次相连;存储模块分别与抓取模块、解析模块、分析模块相连;用户界面与抓取模块、分析模块相连。
2.根据权利要求1所述一种企业外部数据采集与分析系统,其特征在于,所述抓取模块配置数据源抓取的数据量上限用于控制抓取数据的时长。
3.根据权利要求1所述一种企业外部数据采集与分析系统,其特征在于,所述目标信息包括标题信息、正文信息、链接信息、时间信息。
4.根据权利要求1所述一种企业外部数据采集与分析系统,其特征在于,所述目标信息通过可序列化的类的实例进行表达,包括结果的ID、标题、内容、链接、时间、来源、搜索词。
5.根据权利要求1所述一种企业外部数据采集与分析系统,其特征在于,所述过滤为用户基于关键词与分隔符过滤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华能四川水电有限公司,未经华能四川水电有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110372832.6/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置