[发明专利]利用爬虫获取并解析公告信息方法及装置在审
申请号: | 201911341697.8 | 申请日: | 2019-12-24 |
公开(公告)号: | CN111177511A | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 邱贤磊 | 申请(专利权)人: | 平安资产管理有限责任公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/958 |
代理公司: | 北京英特普罗知识产权代理有限公司 11015 | 代理人: | 邓应山 |
地址: | 200120 上海市浦东新区中国(上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 爬虫 获取 解析 公告 信息 方法 装置 | ||
本发明实施例提供一种利用爬虫获取并解析公告信息方法,包括:爬取目标数据,根据所述目标数据得到第一记录表,所述目标数据包括目标公告名称和目标公告附件,所述第一记录表为目标公告名称表;根据所述目标公告附件,得到所述目标公告附件中的表格对应的第一文本信息;根据所述第一记录表及所述第一文本信息生成第二记录表;将所述第二记录表及其对应的所述目标公告附件发送至对应的用户邮箱。通过利用爬虫程序获取企业的相关公告信息,并从相关公告信息中获取企业内部账户具体的数据,整合成第二记录表后,发送至对应的账户邮箱,提高了数据获取效率,降低了数据获取成本。
技术领域
本发明涉及互联网技术领域,尤其涉及一种利用爬虫获取并解析公告信息方法及装置。
背景技术
目前,用户在获取一些信息时,通常需要每天自行去各网站查看公告,有些通知公告甚至带有附件,用户需要打开附件,逐个搜索与自己想要的信息,浪费较大的人力物力,另外,如果用户因为疏忽忘记登陆网站查看公告,可能会错过重要的信息,造成不可挽回的后果。因此,现有的获取公告信息的过程中,存在信息获取成本高,获取效率低的问题。
发明内容
有鉴于此,本发明实施例提供了一种利用爬虫获取并解析公告信息方法、装置、计算机设备及计算机可读存储介质,用于解决通知公告信息获取成本高,获取效率低的问题。
本发明实施例是通过下述技术方案来解决上述技术问题:
一种利用爬虫获取并解析公告信息方法,包括:
爬取目标数据,根据所述目标数据得到第一记录表,所述目标数据包括目标公告名称和目标公告附件,所述第一记录表为目标公告名称表;
根据所述目标公告附件,得到所述目标公告附件中的表格对应的第一文本信息;
根据所述第一记录表及所述第一文本信息生成第二记录表;
将所述第二记录表及其对应的所述目标公告附件发送至对应的用户邮箱。
进一步地,所述爬取目标数据,根据所述目标数据得到第一记录表,所述目标数据包括目标公告名称和目标公告附件,所述第一记录表为目标公告名称表包括:
以第一关键字对目标网站的所有公告名称进行筛选,筛选出的公告为目标公告;
获取目标公告对应的第一链接;
根据所述第一链接获取所述目标公告的页面上的第二链接;
根据所述第二链接获取目标公告附件;
将所述目标公告附件的标题名称存储到表格中,得到第一记录表,及将所述目标公告附件与所述第一记录表关联存储至文件服务器中。
进一步地,所述根据所述目标公告附件,得到所述目标公告附件中的表格对应的第一文本信息包括:
解析所述目标公告附件,将所述目标公告附件从PDF文件格式转换为文本格式;
根据第二关键字在所述文本格式的目标公告附件中定位起始点和终点,以生成目标信息区域;
从所述目标信息区域提取第一文本信息。
进一步地,所述根据所述第一记录表及所述第一文本信息及生成第二记录表包括:
对所述第一文本信息进行识别和整合,得到最终文本信息;
将所述最终文本信息写入所述第一记录表中,生成所述第二记录表。
进一步地,所述对所述第一文本信息进行识别和整合,得到最终文本信息包括:
对所述第一文本信息的换行情况进行识别;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安资产管理有限责任公司,未经平安资产管理有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911341697.8/2.html,转载请声明来源钻瓜专利网。