[发明专利]基于DOM树的正文抽取方法、装置、设备及存储介质有效

申请号：	201910680827.4	申请日：	2019-07-25
公开（公告）号：	CN110377796B	公开（公告）日：	2021-11-02
发明（设计）人：	李子茂;江如茜;莫海芳;帖军;毛腾跃;夏梦;刘恋冬	申请（专利权）人：	中南民族大学
主分类号：	G06F16/901	分类号：	G06F16/901;G06F16/957;G06F16/958
代理公司：	深圳市世纪恒程知识产权代理事务所 44287	代理人：	胡海国
地址：	430074 湖北省武汉***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 dom 正文抽取方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于DOM树的正文抽取方法、装置、设备及存储介质，通过获取待抽取网页中正文信息块对应的DOM树的各节点路径，根据各节点路径确定中心文本区间；根据预设编号集获取所述中心文本区间内的缺失编号，将所述缺失编号添加至所述中心文本区间的中心文本中，获得连续中心文本区间；遍历所述连续中心文本区间的节点路径下的各叶子节点，抽取各叶子节点的文本信息；将各文本信息进行连接组合，获得所述待抽取网页的正文文本信息，提高了网页正文信息抽取的准确率，提高了网页正文信息抽取的速度和效率，节省了信息抽取的时间，提升了用户体验。

技术领域

本发明涉及网页信息处理领域，尤其涉及一种基于DOM树的正文抽取方法、装置、设备及存储介质。

背景技术

随着计算机在世界范围内的爆发式增长和普及，网络上产生了大量的数据信息，但是由于网络信息来源的异构性，想要浏览和搜索这些庞大的数据集就变得很困难；例如通过现有的搜索引擎存在以下问题：使用关键词检索出来的结果庞杂，包含关键词的网页的链接，需要单独浏览才能判断其是否满足需求；搜索时，只要包含关键词的都会检索出来，降低了信息的有效率，影响用户的获取；在检索关键词的同时，网页上伴随着大量的无用信息，如无关新闻、广告，影响用户的观感体验。

现有的解决方法是通过web信息抽取从大量的大型半结构化网页信息中抽取用户所需的信息，并将其转换为结构化形式以存储在硬盘或数据库中；但是在实际操作中，有些网页中正文部分下会有图片和其图注，或者正文前有一些说明的文本，这些图注或者说明的文本长度与正文部分类似，也含有一定的标点符号，就很容易和正文信息块混淆从而导致抽取错误，而且对于阈值设定的不标准也会导致网页正文信息的抽取出现误差，从而导致正文信息抽取的准确度不高的情况，无法准确抽取用户所需的信息。

发明内容

本发明的主要目的在于提供一种基于DOM树的正文抽取方法、装置、设备及存储介质，旨在解决现有技术中网页正文信息抽取容易有噪声信息与正文信息混淆，导致正文信息抽取不够精确，无法准确抽取用户所需的信息的技术问题。

为实现上述目的，本发明提供一种基于DOM树的正文抽取方法，所述基于DOM树的正文抽取方法包括以下步骤：

获取待抽取网页中正文信息块对应的DOM树的各节点路径，根据各节点路径确定中心文本区间；

根据预设编号集获取所述中心文本区间内的缺失编号，将所述缺失编号添加至所述中心文本区间的中心文本中，获得连续中心文本区间；

遍历所述连续中心文本区间的节点路径下的各叶子节点，抽取各叶子节点的文本信息；

将各文本信息进行连接组合，获得所述待抽取网页的正文文本信息。

优选地，所述获取待抽取网页中正文信息块对应的DOM树的各节点路径，根据各节点路径确定中心文本区间，具体包括：

获取待抽取网页中正文信息块对应的DOM树的各节点路径；

根据各节点路径获得所述正文信息块对应的正文节点子区间；

根据预设加权值表获取各正文节点子区间对应的文本加权值；

根据所述文本加权值确定中心文本区间。