[发明专利]基于DOM树的正文抽取方法、装置、设备及存储介质有效
申请号: | 201910680827.4 | 申请日: | 2019-07-25 |
公开(公告)号: | CN110377796B | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 李子茂;江如茜;莫海芳;帖军;毛腾跃;夏梦;刘恋冬 | 申请(专利权)人: | 中南民族大学 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/957;G06F16/958 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国 |
地址: | 430074 湖北省武汉*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 dom 正文 抽取 方法 装置 设备 存储 介质 | ||
本发明公开了一种基于DOM树的正文抽取方法、装置、设备及存储介质,通过获取待抽取网页中正文信息块对应的DOM树的各节点路径,根据各节点路径确定中心文本区间;根据预设编号集获取所述中心文本区间内的缺失编号,将所述缺失编号添加至所述中心文本区间的中心文本中,获得连续中心文本区间;遍历所述连续中心文本区间的节点路径下的各叶子节点,抽取各叶子节点的文本信息;将各文本信息进行连接组合,获得所述待抽取网页的正文文本信息,提高了网页正文信息抽取的准确率,提高了网页正文信息抽取的速度和效率,节省了信息抽取的时间,提升了用户体验。
技术领域
本发明涉及网页信息处理领域,尤其涉及一种基于DOM树的正文抽取方法、装置、设备及存储介质。
背景技术
随着计算机在世界范围内的爆发式增长和普及,网络上产生了大量的数据信息,但是由于网络信息来源的异构性,想要浏览和搜索这些庞大的数据集就变得很困难;例如通过现有的搜索引擎存在以下问题:使用关键词检索出来的结果庞杂,包含关键词的网页的链接,需要单独浏览才能判断其是否满足需求;搜索时,只要包含关键词的都会检索出来,降低了信息的有效率,影响用户的获取;在检索关键词的同时,网页上伴随着大量的无用信息,如无关新闻、广告,影响用户的观感体验。
现有的解决方法是通过web信息抽取从大量的大型半结构化网页信息中抽取用户所需的信息,并将其转换为结构化形式以存储在硬盘或数据库中;但是在实际操作中,有些网页中正文部分下会有图片和其图注,或者正文前有一些说明的文本,这些图注或者说明的文本长度与正文部分类似,也含有一定的标点符号,就很容易和正文信息块混淆从而导致抽取错误,而且对于阈值设定的不标准也会导致网页正文信息的抽取出现误差,从而导致正文信息抽取的准确度不高的情况,无法准确抽取用户所需的信息。
发明内容
本发明的主要目的在于提供一种基于DOM树的正文抽取方法、装置、设备及存储介质,旨在解决现有技术中网页正文信息抽取容易有噪声信息与正文信息混淆,导致正文信息抽取不够精确,无法准确抽取用户所需的信息的技术问题。
为实现上述目的,本发明提供一种基于DOM树的正文抽取方法,所述基于DOM树的正文抽取方法包括以下步骤:
获取待抽取网页中正文信息块对应的DOM树的各节点路径,根据各节点路径确定中心文本区间;
根据预设编号集获取所述中心文本区间内的缺失编号,将所述缺失编号添加至所述中心文本区间的中心文本中,获得连续中心文本区间;
遍历所述连续中心文本区间的节点路径下的各叶子节点,抽取各叶子节点的文本信息;
将各文本信息进行连接组合,获得所述待抽取网页的正文文本信息。
优选地,所述获取待抽取网页中正文信息块对应的DOM树的各节点路径,根据各节点路径确定中心文本区间,具体包括:
获取待抽取网页中正文信息块对应的DOM树的各节点路径;
根据各节点路径获得所述正文信息块对应的正文节点子区间;
根据预设加权值表获取各正文节点子区间对应的文本加权值;
根据所述文本加权值确定中心文本区间。
优选地,所述根据各节点路径获得所述正文信息块对应的正文节点子区间,具体包括:
根据预设编号集获取各节点路径对应的路径编号值;
将连续的路径编号值对应的节点路径划分为同一正文节点子区间,遍历各节点路径,直至各节点路径全部划分完毕。
优选地,所述根据预设加权值表获取各正文节点子区间对应的文本加权值,具体包括:
获取各正文节点子区间的文本密度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南民族大学,未经中南民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910680827.4/2.html,转载请声明来源钻瓜专利网。