[发明专利]利用爬虫获取并解析公告信息方法及装置在审

专利信息
申请号: 201911341697.8 申请日: 2019-12-24
公开(公告)号: CN111177511A 公开(公告)日: 2020-05-19
发明(设计)人: 邱贤磊 申请(专利权)人: 平安资产管理有限责任公司
主分类号: G06F16/951 分类号: G06F16/951;G06F16/958
代理公司: 北京英特普罗知识产权代理有限公司 11015 代理人: 邓应山
地址: 200120 上海市浦东新区中国(上*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 利用 爬虫 获取 解析 公告 信息 方法 装置
【权利要求书】:

1.一种利用爬虫获取并解析公告信息方法,其特征在于,包括:

爬取目标数据,根据所述目标数据得到第一记录表,所述目标数据包括目标公告名称和目标公告附件,所述第一记录表为目标公告名称表;

根据所述目标公告附件,得到所述目标公告附件中的表格对应的第一文本信息;

根据所述第一记录表及所述第一文本信息生成第二记录表;

将所述第二记录表及其对应的所述目标公告附件发送至对应的用户邮箱

2.根据权利要求1所述的利用爬虫获取并解析公告信息方法,其特征在于,所述爬取目标数据,根据所述目标数据得到第一记录表,所述目标数据包括目标公告名称和目标公告附件,所述第一记录表为目标公告名称表包括:

以第一关键字对目标网站的所有公告名称进行筛选,筛选出的公告为目标公告;

获取目标公告对应的第一链接;

根据所述第一链接获取所述目标公告的页面上的第二链接;

根据所述第二链接获取目标公告附件;

将所述目标公告附件的标题名称存储到表格中,得到第一记录表,及将所述目标公告附件与所述第一记录表关联存储至文件服务器中。

3.根据权利要求2所述的利用爬虫获取并解析公告信息方法,其特征在于,所述根据所述目标公告附件,得到所述目标公告附件中的表格对应的第一文本信息包括:

解析所述目标公告附件,将所述目标公告附件从PDF文件格式转换为文本格式;

根据第二关键字在所述文本格式的目标公告附件中定位起始点和终点,以生成目标信息区域;

从所述目标信息区域提取第一文本信息。

4.根据权利要求1所述的利用爬虫获取并解析公告信息方法,其特征在于,所述根据所述第一记录表及所述第一文本信息及生成第二记录表包括:

对所述第一文本信息进行识别和整合,得到最终文本信息;

将所述最终文本信息写入所述第一记录表中,生成所述第二记录表。

5.根据权利要求4所述的利用爬虫获取并解析公告信息方法,其特征在于,所述对所述第一文本信息进行识别和整合,得到最终文本信息包括:

对所述第一文本信息的换行情况进行识别;

根据所述换行情况,对所述第一文本信息进行换行整合,得到第二文本信息;

对所述第二文本信息的分页情况进行识别;

根据所述分页情况,对所述第二文本信息进行分页整合,得到最终文本信息。

6.根据权利要求5所述的利用爬虫获取并解析公告信息方法,其特征在于,所述对所述第一文本信息的换行情况进行识别包括:

检测所述第一文本信息是否以数字开头并且是否有相应数目的字段,如果是以数字开头且有相应数目的字段,则判断为非换行数据,如果没有以数字开头或者有相应数目的字段,则说明为换行数据;

所述对所述第二文本信息的分页情况进行识别包括:

检测所述第二文本信息是否出现特定标识符,当出现所述特定标识符且所述特定标识符的下一行只以数字开头,则判断为非分页换行,当出现所述特定标识符但所述特定标识符的下一行不以数字开头,则判断为分页换行。

7.根据权利要求1所述的利用爬虫获取并解析公告信息方法,其特征在于,所述将所述第二记录表及其对应的所述目标公告附件发送至不同用户邮箱包括:

根据所述第二记录表从用户列表中获取用户邮箱;

将所述第二记录表和对应的目标公告附件发送至对应的用户邮箱。

8.一种利用爬虫获取并解析公告信息装置,其特征在于,包括:

目标数据获取模块,用于爬取目标数据,根据所述目标数据得到第一记录表,所述目标数据包括目标公告名称和目标公告附件,所述第一记录表为目标公告名称表;

文本信息获取模块,用于根据所述目标公告附件,得到所述目标公告附件中的表格对应的第一文本信息;

第二记录表生成模块,用于根据所述第一记录表及所述第一文本信息生成第二记录表;

邮件发送模块,用于将所述第二记录表及其对应的所述目标公告附件发送至对应的用户邮箱。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安资产管理有限责任公司,未经平安资产管理有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911341697.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top