[发明专利]一种基于URL主题分类的深层网络爬虫表单填充方法和装置有效
申请号: | 201610247854.9 | 申请日: | 2016-04-20 |
公开(公告)号: | CN105843965B | 公开(公告)日: | 2019-06-04 |
发明(设计)人: | 邹立斌;李青海;简宋全;侯大勇 | 申请(专利权)人: | 广东精点数据科技股份有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 北京隆源天恒知识产权代理事务所(普通合伙) 11473 | 代理人: | 闫冬 |
地址: | 510630 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于URL主题分类的深层网络爬虫表单填充方法和装置,该装置包括预处理单元、下载单元、网页分析单元、网页处理单元和存储单元。与现有技术比较本发明的有益效果在于:本发明提供的一种基于URL主题分类的深层网络爬虫表单填充方法和装置,实现了基于URL主题分类的深层网络爬虫表单填充优化。利用本体库以及基于语义的相似度匹配算法把深层网络爬虫进一步智能化,从而丰富了相关领域的数据,并构建映射存储,为提高搜索引擎的信息检索提供了一种新的思路。 | ||
搜索关键词: | 一种 基于 url 主题 分类 深层 网络 爬虫 表单 填充 方法 装置 | ||
【主权项】:
1.一种基于URL主题分类的深层网络爬虫表单填充装置,其特征在于,包括预处理单元、下载单元、网页分析单元、网页处理单元和存储单元;所述预处理单元,用于采集URL数据,对所述URL进行分块处理,并对所述URL进行粗分类后存储;所述下载单元,用于根据所述URL和其对应的分类类别获取可搜索的网页表单;所述网页分析单元,用于对所述可搜索的网页表单进行核心特征词提取,找出网页表单中的表单标签和表单控件;所述网页处理单元用于将所述表单标签和所述核心特征词进行标准化处理,通过语义的相似度匹配算法将标准化后的核心特征词与领域本体知识库匹配得出URL的细分类主题,通过语义的相似度匹配算法将标准化后的表单标签与所述领域本体知识库属性匹配得出所述表单控件的属性值,通过反馈的所述表单控件的属性值对相应的所述表单控件进行填充,并下载返回的网页数据;所述存储单元,用于将所述URL和其对应的细分类类别进行存储,并且构建所述URL与相应主题的映射关系。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东精点数据科技股份有限公司,未经广东精点数据科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610247854.9/,转载请声明来源钻瓜专利网。
- 上一篇:曲脚
- 下一篇:土建基础结构沉降自适应矩形伸缩连接装置