[发明专利]一种通用的网页主题内容提取方法和系统有效
申请号: | 201810572726.0 | 申请日: | 2018-06-06 |
公开(公告)号: | CN108920434B | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 钟刚 | 申请(专利权)人: | 武汉酷犬数据科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F8/75;G06F40/143;G06F40/146 |
代理公司: | 北京一格知识产权代理事务所(普通合伙) 11316 | 代理人: | 赵永伟 |
地址: | 430000 湖北省武汉市*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 通用 网页 主题 内容 提取 方法 系统 | ||
1.一种通用的网页主题内容提取方法,其特征在于,包括以下步骤:
步骤1,构建目标网页的DOM树,对所述DOM树的节点进行清理,并按照与正文内容的相关性对所述DOM树的剩余节点进行属性标记;
步骤2,遍历属性标记后的DOM树,将DOM树的剩余节点分类缓存为图片节点、日期节点、正文文本节点或可视标题节点;
步骤3,根据所述图片节点、所述日期节点以及所述正文文本节点分别与所述可视标题节点的距离判断所述图片节点的内容、所述日期节点的内容以及所述正文文本节点的内容是否为主题内容,并根据判断结果完成对目标网页主题内容的提取,所述主题内容包括正文图片、发布时间和正文;
其中,根据已缓存的正文文本节点提取正文具体包括以下步骤:
将所有可能的正文文本节点按照节点计数序号进行升序排序;
找到所有可能的正文文本节点中,第一个节点计数序号大于可视标题节点的节点计数序号的第一目标节点,且所述第一目标节点的句子数大于0或者第一目标节点的内容词语与可视标题节点的内容词语具有相关性,将所述第一目标节点记为p1节点;
以所述p1节点为起点向前反向找到与所述p1节点的节点计数序号差值小于3,且访问路径相似的第二目标节点,并替换为p1,然后重复本步骤,直到找不到新的第二目标节点为止;
清理所述p1节点之前的所有可能的正文文本节点,并对剩余的所有可能的正文文本节点按照节点访问路径进行分组,且各分组内部按照节点计数序号进行升序排序,分组之间按照各分组的第一个节点的节点计数序号进行升序排序;
计算每个分组的预设参数值,并将所述预设参数值导入到预先训练的预测模型进行打分,生成分数大于预设分值的目标分组;
将所有目标分组中的节点按照节点计数序号进行升序排序,并形成文本节点集合;
缓存所述文本节点集合。
2.根据权利要求1所述的通用的网页主题内容提取方法,其特征在于,所述步骤1具体包括以下步骤:
S101,下载目标网页的源代码,并将所述源代码解析为一个DOM树;
S102,获取并缓存所述DOM树中title标签节点的内容,同时对title标签节点的内容进行中文分词和去除停用词,生成包括若干标题词语的标题词语集合;
S103,使用深度优先的方式遍历所述DOM树,清理所述DOM树中预设类型的节点后,判断剩余节点的id属性、class属性和/或style属性是否满足第一预设条件,并根据判断结果对所述剩余节点进行属性标记为确定与正文无关的元素、可能与正文无关的元素和其它元素。
3.根据权利要求2所述的通用的网页主题内容提取方法,其特征在于,所述步骤2具体包括以下步骤:
S201,选择DOM树的body元素作为进行深度优先递归遍历的起始节点,生成DOM树中每个剩余元素对应的节点访问路径;
S202,根据DOM树中剩余元素的属性标记信息,将可能与正文无关的元素和其它元素均作为待收集元素,对所述待收集元素进行信息收集并分类缓存为图片节点、作者节点、日期节点、正文文本节点或可视标题节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉酷犬数据科技有限公司,未经武汉酷犬数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810572726.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本显示方法、系统及终端
- 下一篇:一种可视化程序页面数据节点匹配方法
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法