[发明专利]网页正文的自动抽取方法及装置有效
申请号: | 202011098344.2 | 申请日: | 2020-10-14 |
公开(公告)号: | CN112269906B | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | 李晓戈;秦龙;马鲜艳;穆诤辉;韩保民;颜吏 | 申请(专利权)人: | 西安邮电大学;陕西省科技资源统筹中心 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06F16/951;G06F16/953;G06N3/0464;G06N3/08 |
代理公司: | 北京易捷胜知识产权代理有限公司 11613 | 代理人: | 齐胜杰 |
地址: | 710121 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 正文 自动 抽取 方法 装置 | ||
1.一种网页正文的自动抽取方法,其特征在于,该方法包括:
S10、根据接收的关键字在搜索引擎中搜索得到目标网站,从所述目标网站抓取网页数据,并对抓取的网页进行截图,得到网页图像数据;
S20、将所述网页图像数据作为输入,通过预先训练的网页分类模型识别网页类型,输出网页类型分类结果;所述网页类型包括文章网页和列表网页;所述网页分类模型基于卷积神经网络构建,是以从互联网上抓取的网页图像数据为训练样本、将网页类型作为样本标签训练得到的网络模型;
S30、将网页数据解析为DOM树;当网页类型为文章网页时,采用第一抽取方法从所述网页数据中抽取网页正文,所述第一抽取方法包括:比较DOM树中同一父元素中两个子元素文本长度之差与全部子元素文本长度的标准差,基于比较结果从网页数据中抽取网页正文,包括:
选择同一父元素中文本长度最长的两个子元素,计算两个子元素的文本长度的差值;
如果差值大于全部子元素文本长度的标准差,从文本长度最长的子元素中抽取网页正文;
如果差值小于等于全部子元素文本长度的标准差,从父元素中抽取网页正文;
当网页类型为列表网页时,采用第二抽取方法从所述网页数据中抽取网页正文,所述第二抽取方法包括:将DOM树中深度级别、属性相同的元素作为一个衡量单元,从平均文本长度最长的衡量单元对应的元素抽取网页正文。
2.根据权利要求1所述的网页正文的自动抽取方法,其特征在于,在步骤S20之后、步骤S30之前还包括:
S21、通过数据清洗去除网页数据中的噪音数据,噪音数据包括客户端脚本数据、样式信息数据、头部信息数据中的一种或多种。
3.根据权利要求2所述的网页正文的自动抽取方法,其特征在于,所述第一抽取方法还包括:
针对没有子元素的元素,通过比较DOM树中该元素和其同级别元素中文本的长度,从文本长度最长的元素抽取网页正文。
4.根据权利要求2所述的网页正文的自动抽取方法,其特征在于,将DOM树中深度级别、属性相同的元素作为一个衡量单元,从平均文本长度最长的衡量单元对应的元素抽取网页正文,包括:
将深度级别、属性相同的多个元素作为一个衡量单元;
统计每个衡量单元中元素的个数和多个元素的文本总长度;
计算每个衡量单元的排序特征值,按照所述排序特征值对每个衡量单元进行排序;
从排序特征值最大的衡量单元开始,顺次选取预设数量的衡量单元;
针对选取的每个衡量单元,计算网页数据中该衡量单元的平均文本长度;
从平均文本长度最长的衡量单元对应的元素抽取网页正文。
5.根据权利要求4所述的网页正文的自动抽取方法,其特征在于,所述排序特征值的计算方法为:
其中,R表示排序特征值,O表示衡量单元中元素的个数,L表示衡量单元中多个元素的文本总长度。
6.根据权利要求4所述的网页正文的自动抽取方法,其特征在于,所述平均文本长度的计算方法为;
其中,L表示衡量单元中多个元素的文本总长度。
7.根据权利要求1-6中任一权利要求所述的网页正文的自动抽取方法,其特征在于,所述列表网页包括论坛、微博、贴吧、影评中的一种或多种。
8.一种网页正文的自动抽取装置,其特征在于,该装置包括:
数据抓取模块,用于根据预设的关键字在搜索引擎中搜索得到目标网站,从所述目标网站抓取网页数据,并对抓取的网页进行截图,得到网页图像数据;
分类模块,用于将所述网页图像数据作为输入,通过预先训练的网页分类模型识别网页类型,输出网页类型分类结果;所述网页类型包括文章网页和列表网页;所述网页分类模型基于卷积神经网络构建,是以从互联网上抓取的网页图像数据为训练样本、将网页类型作为样本标签训练得到的网络模型;
正文抽取模块,用于将网页数据解析为DOM树;当网页类型为文章网页时,采用第一抽取方法从网页数据中抽取网页正文,所述第一抽取方法包括:比较DOM树中同一父元素中两个子元素文本长度之差与全部子元素文本长度的标准差,基于比较结果从网页数据中抽取网页正文,包括:
选择同一父元素中文本长度最长的两个子元素,计算两个子元素的文本长度的差值;
如果差值大于全部子元素文本长度的标准差,从文本长度最长的子元素中抽取网页正文;
如果差值小于等于全部子元素文本长度的标准差,从父元素中抽取网页正文;
当网页类型为列表网页时,采用第二抽取方法从网页数据中抽取网页正文,所述第二抽取方法包括:将DOM树中深度级别、属性相同的元素作为一个衡量单元,从平均文本长度最长的衡量单元对应的元素抽取网页正文。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安邮电大学;陕西省科技资源统筹中心,未经西安邮电大学;陕西省科技资源统筹中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011098344.2/1.html,转载请声明来源钻瓜专利网。