[发明专利]佛学数据收集方法、装置、设备及存储介质在审

专利信息
申请号: 202110301859.6 申请日: 2021-03-22
公开(公告)号: CN113449115A 公开(公告)日: 2021-09-28
发明(设计)人: 程华东;张翔;侯翠琴;李剑锋 申请(专利权)人: 平安科技(深圳)有限公司
主分类号: G06F16/36 分类号: G06F16/36;G06F16/903;G06F16/951;G06F16/955
代理公司: 北京市京大律师事务所 11321 代理人: 姚维
地址: 518033 广东省深圳市福田区福*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 佛学 数据 收集 方法 装置 设备 存储 介质
【权利要求书】:

1.一种佛学数据收集方法,其特征在于,所述佛学数据收集方法包括:

接收数据采集需求和解析标签,并根据所述数据采集需求,确定数据供应方,其中,所述数据供应方包括:数据库、网页和pdf版本书籍,所述解析标签中包含有结构化信息及半结构化信息;

根据所述数据供应方,调用预置数据请求接口,获取佛学源数据;

根据所述解析标签,对所述佛学源数据进行解析,得到原始佛学数据;

对所述原始佛学数据进行数据去重,得到目标佛学数据,并将所述目标佛学数据存储至预置数据库。

2.根据权利要求1所述的佛学数据收集方法,其特征在于,所述根据所述数据供应方,调用预置数据请求接口,获取佛学源数据包括:

若所述数据供应方为数据库,则对所述数据采集需求进行解析,获取所述数据采集需求中携带的数据存储位置,并根据所述数据存储位置,调用预置数据库请求接口,获取佛学源数据;

若所述数据供应方为pdf版本书籍,则通过预置书籍请求接口读取对应佛学源数据;

若所述数据供应方为网页,则对所述数据采集需求进行解析,获取待爬取网页的网页地址,爬取所述待爬取网页中的待爬取网页数据,得到佛学源数据。

3.根据权利要求2所述的佛学数据收集方法,其特征在于,所述获取待爬取网页的网页地址,爬取所述待爬取网页中的待爬取网页数据,得到佛学源数据包括:

获取待爬取网页的网页地址,根据所述待爬取网页的网页地址,获取所述待爬取网页的对应的有效登录数据;

根据所述有效登录数据,从网络地址库中随机选取可用的网络地址,其中,所述网络地址库是配置在所述网页数据爬取平台中的用于存储不同网络地址的数据库;

对所述有效登录数据进行正确性验证,得到通过所述正确性验证的目标登录数据,并根据所述目标登录数据,登录所述待爬取网页,并根据与所述待爬取网页相对应的渲染方式渲染所述待爬取网页;

爬取已渲染完成的所述待爬取网页,获取待爬取网页数据,得到佛学源数据,其中,所述待爬取网页数据是指存储在待爬取网站服务器上,且可以在待爬取网页上显示的内容。

4.根据权利要求3所述的佛学数据收集方法,其特征在于,所述爬取已渲染完成的所述待爬取网页,获取待爬取网页数据包括:

根据所述待爬取网页的网页地址,从爬取配置库中选取与所述待爬取网页对应的爬取配置文件;

根据所选取的爬取配置文件中的待爬取网页数据的位置,爬取所述待爬取网页中的待爬取网页数据。

5.根据权利要求1所述的佛学数据收集方法,其特征在于,所述根据所述解析标签,对所述佛学源数据进行解析,得到原始佛学数据包括:

预先设置正则表达式;

从所述佛学源数据中提取与所述正则表达式相匹配的文本数据;

根据所述正则表达式和所述解析标签,从所述文本数据中提取关键词及内容值;

建立所述关键词与所述内容值之间的关联关系,得到原始佛学数据。

6.根据权利要求1所述的佛学数据收集方法,其特征在于,所述对所述原始佛学数据进行数据去重,得到目标佛学数据,并将所述目标佛学数据存储至预置数据库包括:

获取数据访问请求,并提取所述数据访问请求中的特征字段;

对所述特征字段进行清洗,并将清洗后的特征字段进行规范化处理;

对所述特征字段进行拼接,生成特征字段组合,并通过哈希算法对所述特征字段组合进行压缩处理,得到已压缩处理的特征字段;

对所述已压缩处理的特征字段进行识别,并根据识别结果判断所述特征字段是否为重复字段;

若是,则将所述特征字段存储至预设的异常处理队列中,否则输出提示消息,其中,所述提示消息用于提示所述特征字段为正常字段

剔除所述重复字段,得到目标佛学数据,并将所述目标佛学数据存储至预置数据库。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110301859.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top