[发明专利]一种企业外部数据采集与分析系统在审

专利信息
申请号: 202110372832.6 申请日: 2021-04-07
公开(公告)号: CN112950293A 公开(公告)日: 2021-06-11
发明(设计)人: 胡杨;刘军恺;李玮;戴萍 申请(专利权)人: 华能四川水电有限公司
主分类号: G06Q30/02 分类号: G06Q30/02;G06F16/25;G06F16/215;G06F16/9035
代理公司: 北京天奇智新知识产权代理有限公司 11340 代理人: 叶明博
地址: 610041 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 企业 外部 数据 采集 分析 系统
【权利要求书】:

1.一种企业外部数据采集与分析系统,其特征在于,包括:

用户界面,用于用户与系统间交互,包括设置系统参数、控制抓取操作、展示和分析结果、导出结果;

抓取模块,用于从数据源按照配置参数抓取原始数据,并将抓取到的原始数据发送至解析模块处理;

解析模块,用于为不同的数据源配置不同的解析方式,从抓取到的原始数据中解析出目标信息,获得结构化数据,以可序列化的类的实例进行表达,同时存储原始数据与配置参数;

分析模块,用于将当前解析结果与历史解析结果进行比对,生成第一结果列表与第二结果列表,以可序列化的类的实例进行表达,对第一结果列表与第二结果列表过滤,将过滤的结果去重后存储在过滤列表;系统在收到第一结果列表、第二结果列表与过滤结果条目请求时,调用浏览器打开其对应的原始数据来源网页;

存储模块,用于:

系统状态的自动存储:系统状态包括抓取模块、解析模块、分析模块的状态,将系统状态表示为类的实例,并将该实例序列化后通过状态文件存储到文件系统;系统启动时,检测该状态文件是否存在,如状态文件不存在,系统以默认配置启动;如状态文件存在,系统读取状态文件并进行反序列化,恢复上次退出时的系统状态;

分析结果的导出:在用户请求导出第一结果列表、第二结果列表与二次过滤结果条目时,调用应用程序接口导出文件;

抓取模块、解析模块、分析模块依次相连;存储模块分别与抓取模块、解析模块、分析模块相连;用户界面与抓取模块、分析模块相连。

2.根据权利要求1所述一种企业外部数据采集与分析系统,其特征在于,所述抓取模块配置数据源抓取的数据量上限用于控制抓取数据的时长。

3.根据权利要求1所述一种企业外部数据采集与分析系统,其特征在于,所述目标信息包括标题信息、正文信息、链接信息、时间信息。

4.根据权利要求1所述一种企业外部数据采集与分析系统,其特征在于,所述目标信息通过可序列化的类的实例进行表达,包括结果的ID、标题、内容、链接、时间、来源、搜索词。

5.根据权利要求1所述一种企业外部数据采集与分析系统,其特征在于,所述过滤为用户基于关键词与分隔符过滤。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华能四川水电有限公司,未经华能四川水电有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110372832.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top