[发明专利]网页信息的获取方法和计算机存储介质在审

申请号：	201910911511.1	申请日：	2019-09-25
公开（公告）号：	CN110704761A	公开（公告）日：	2020-01-17
发明（设计）人：	郭龙飞	申请（专利权）人：	恩亿科(北京)数据科技有限公司
主分类号：	G06F16/955	分类号：	G06F16/955
代理公司：	11262 北京安信方达知识产权代理有限公司	代理人：	张建秀;栗若木
地址：	100080 北京市海淀区西小口路66***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网页链接信息分类噪音计算机存储介质统一资源定位符标签路径网页信息文本标签申请
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例公开了一种网页信息的获取方法和计算机存储介质。所述方法包括：获取网页中链接信息的统一资源定位符URL；将URL中包括相同标签路径信息的URL分为一类，得到n个分类，其中n为大于等于2的自然数；计算每个分类的URL的文本标签路径比TPR；根据所述每个分类的URL的TPR，确定所述网页中噪音内容的TPR的取值信息；根据所述噪音内容的取值信息，对所述网页中链接信息的URL进行识别，得到所述网页中的新闻型URL和/或目录型的URL。

技术领域

本申请实施例涉及信息处理领域，尤指一种网页信息的获取方法和计算机存储介质。

背景技术

从海量异构的半结构化新闻Web页面中自动提取出所需要的内容并以结构化的形式存储是现在网络爬虫的一个趋势。研究表明，在新闻网页的采集周期内变化频率大的网页会发生多次变化，如果采集系统不能及时识别和抓取变化网页的内容，会造成这段时间内重要新闻数据的丢失。

新闻Web页面包含标题横幅，广告，相关链接，版权和免责声明等注意事项。这些额外的非新闻内容在网络上会花费额外的数据存储空间并且会降低服务质量。

相关技术中，为了能实时准确地识别抓取出新闻网页上的有效内容通过机器学习大量标注新闻网页的主题型网页和目录型网页，建立一个基于相关网站的训练集的训练模型，利用该训练模型实现自动识别网页对应的类型。

采用机器学习的方式，开发成本高；另外，机器学习所需要的标注，训练等开发周期比较长，如果训练的模型不合适，准确率和召回率都较低。

发明内容

为了解决上述任一技术问题，本申请实施例提供了一种网页信息的获取方法和计算机存储介质。

为了达到本申请实施例目的，本申请实施例提供了一种网页信息的获取方法，包括：

获取网页中链接信息的统一资源定位符URL；

将URL中包括相同标签路径信息的URL分为一类，得到n个分类，其中n为大于等于2的自然数；