[发明专利]网页信息的获取方法和计算机存储介质在审
申请号: | 201910911511.1 | 申请日: | 2019-09-25 |
公开(公告)号: | CN110704761A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 郭龙飞 | 申请(专利权)人: | 恩亿科(北京)数据科技有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955 |
代理公司: | 11262 北京安信方达知识产权代理有限公司 | 代理人: | 张建秀;栗若木 |
地址: | 100080 北京市海淀区西小口路66*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 链接信息 分类 噪音 计算机存储介质 统一资源定位符 标签路径 网页信息 文本标签 申请 | ||
本申请实施例公开了一种网页信息的获取方法和计算机存储介质。所述方法包括:获取网页中链接信息的统一资源定位符URL;将URL中包括相同标签路径信息的URL分为一类,得到n个分类,其中n为大于等于2的自然数;计算每个分类的URL的文本标签路径比TPR;根据所述每个分类的URL的TPR,确定所述网页中噪音内容的TPR的取值信息;根据所述噪音内容的取值信息,对所述网页中链接信息的URL进行识别,得到所述网页中的新闻型URL和/或目录型的URL。
技术领域
本申请实施例涉及信息处理领域,尤指一种网页信息的获取方法和计算机存储介质。
背景技术
从海量异构的半结构化新闻Web页面中自动提取出所需要的内容并以结构化的形式存储是现在网络爬虫的一个趋势。研究表明,在新闻网页的采集周期内变化频率大的网页会发生多次变化,如果采集系统不能及时识别和抓取变化网页的内容,会造成这段时间内重要新闻数据的丢失。
新闻Web页面包含标题横幅,广告,相关链接,版权和免责声明等注意事项。这些额外的非新闻内容在网络上会花费额外的数据存储空间并且会降低服务质量。
相关技术中,为了能实时准确地识别抓取出新闻网页上的有效内容通过机器学习大量标注新闻网页的主题型网页和目录型网页,建立一个基于相关网站的训练集的训练模型,利用该训练模型实现自动识别网页对应的类型。
采用机器学习的方式,开发成本高;另外,机器学习所需要的标注,训练等开发周期比较长,如果训练的模型不合适,准确率和召回率都较低。
发明内容
为了解决上述任一技术问题,本申请实施例提供了一种网页信息的获取方法和计算机存储介质。
为了达到本申请实施例目的,本申请实施例提供了一种网页信息的获取方法,包括:
获取网页中链接信息的统一资源定位符URL;
将URL中包括相同标签路径信息的URL分为一类,得到n个分类,其中n为大于等于2的自然数;
计算每个分类的URL的文本标签路径比TPR;
根据所述每个分类的URL的TPR,确定所述网页中噪音内容的TPR的取值信息;
根据所述噪音内容的取值信息,对所述网页中链接信息的URL进行识别,得到所述网页中的新闻型URL和/或目录型的URL。
在一个示例性实施例中,所述获取网页中链接信息的URL,包括:
获取网页的代码信息;
从所述网页的HTML代码信息中选择携带有href属性的A标签节点;
获取所述A标签节点下有可达文本节点的URL,作为所述网页中链接信息的URL。3、根据权利要求1所述的方法,其特征在于,所述将URL中包括相同标签路径的URL分为一类,包括:
获取每个链接信息的URL所在的A标签节点在HTML页面中对应的标签路径信息;
根据所述URL对应的标签路径信息,将具有相同标签路径信息的URL作为同一类URL。
在一个示例性实施例中,所述计算每个分类的URL的文本标签路径比TPR,包括:
计算每个分类的URL中所有A标签节点的可达文本节点的文本长度之和;以及,计算每个分类的URL中A标签节点的标签路径的总数;
计算每个分类的URL中所有A标签节点的可达文本节点的文本长度之和与A标签节点的标签路径的总数的比值,得到每类具有相同标签路径的所有URL的TPR值。
在一个示例性实施例中,所述根据所述每个分类的URL的TPR,确定所述网页中噪音内容的TPR的取值信息,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于恩亿科(北京)数据科技有限公司,未经恩亿科(北京)数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910911511.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据处理方法和装置
- 下一篇:数据呈现方法、装置、计算机设备及存储介质