[发明专利]网页正文的自动抽取方法及装置有效
申请号: | 202011098344.2 | 申请日: | 2020-10-14 |
公开(公告)号: | CN112269906B | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | 李晓戈;秦龙;马鲜艳;穆诤辉;韩保民;颜吏 | 申请(专利权)人: | 西安邮电大学;陕西省科技资源统筹中心 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06F16/951;G06F16/953;G06N3/0464;G06N3/08 |
代理公司: | 北京易捷胜知识产权代理有限公司 11613 | 代理人: | 齐胜杰 |
地址: | 710121 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 正文 自动 抽取 方法 装置 | ||
本申请属于计算机技术领域,具体涉及一种网页正文的自动抽取方法及装置。其中的方法包括:通过关键字搜索得到目标网站,从目标网站抓取网页数据,并对抓取的网页进行截图,得到网页图像数据;通过预先训练的卷积神经网络将网页分为文章网页和列表网页,并将网页数据解析为DOM树;对文章网页,比较同一父元素中两个子元素文本长度之差与全部子元素文本长度的标准差,基于比较结果从网页数据中抽取网页正文;对列表网页,将深度级别、属性相同的元素作为一个衡量单元,从平均文本长度最长的衡量单元对应的元素抽取网页正文。本申请中的方法可以准确识别网页页面中的正文内容,实现高效、快速的网页正文抽取,从而使系统具有较高的稳定性和鲁棒性。
技术领域
本申请属于计算机技术领域,具体涉及一种网页正文的自动抽取方法及装置。
背景技术
针对性、行业性、精准性的数据抓取是个性化内容推荐、文本情感分析、自动化摘要技术、文本主题分类,自然语言处理、舆情分析等工作的基础。这些应用大多数建立在海量数据基础上,网页信息可以在一定程度上满足这些应用对基础数据的需求。对正文抽取就是要将网页的正文信息准确、高效地提取出来。现有方法采用DOM(Document ObjectMode,文档对象模型)树的方式进行内容提取,通过将HTML等网页页面构建DOM树,再结合定制的模板文件,从相关叶子节点中提取相关信息。
但是目前网页形式多样,大多数网页除了包含正文信息以外,还包含广告、导航等噪音,也有一些网页在单个网页中包含多个正文信息块,例如论坛、微博等。因此基于DOM树结合定制模板的网页抽取,必须对待抽取目标的页面结构非常了解,需要构建大量的解析模板来匹配相应位置的内容,人力成本高。网页页面的更新周期往往非常短,当页面结构发生变化时,需要修改装置的解析模板进行适配,大大降低了装置的稳定性和鲁棒性。
因此亟需一种不需要进行人工定制的技术来高效快速获取正文信息。
发明内容
(一)要解决的技术问题
鉴于现有技术的上述缺点、不足,本申请提供一种网页正文的自动抽取方法及装置。
(二)技术方案
为达到上述目的,本申请采用如下技术方案:
第一方面,本申请实施例提供一种网页正文的自动抽取方法,该方法包括:
S10、根据接收的关键字在搜索引擎中搜索得到目标网站,从所述目标网站抓取网页数据,并对抓取的网页进行截图,得到网页图像数据;
S20、将所述网页图像数据作为输入,通过预先训练的网页分类模型识别网页类型,输出网页类型分类结果;所述网页类型包括文章网页和列表网页;所述网页分类模型基于卷积神经网络构建,是以从互联网上抓取的网页图像数据为训练样本、将网页类型作为样本标签训练得到的网络模型;
S30、将网页数据解析为DOM树;当网页类型为文章网页时,采用第一抽取方法从所述网页数据中抽取网页正文,所述第一抽取方法包括:比较DOM树中同一父元素中两个子元素文本长度之差与全部子元素文本长度的标准差,基于比较结果从网页数据中抽取网页正文;
当网页类型为列表网页时,采用第二抽取方法从所述网页数据中抽取网页正文,所述第二抽取方法包括:将DOM树中深度级别、属性相同的元素作为一个衡量单元,从平均文本长度最长的衡量单元对应的元素抽取网页正文。
可选地,在步骤S20之后、步骤S30之前还包括:
S21、通过数据清洗去除网页数据中的噪音数据,噪音数据包括客户端脚本数据、样式信息数据、头部信息数据中的一种或多种。
可选地,所述第一抽取方法还包括:
针对没有子元素的元素,通过比较DOM树中该元素和其同级别元素中文本的长度,从文本长度最长的元素抽取网页正文。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安邮电大学;陕西省科技资源统筹中心,未经西安邮电大学;陕西省科技资源统筹中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011098344.2/2.html,转载请声明来源钻瓜专利网。