[发明专利]网页信息的获取方法和计算机存储介质在审
申请号: | 201910911511.1 | 申请日: | 2019-09-25 |
公开(公告)号: | CN110704761A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 郭龙飞 | 申请(专利权)人: | 恩亿科(北京)数据科技有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955 |
代理公司: | 11262 北京安信方达知识产权代理有限公司 | 代理人: | 张建秀;栗若木 |
地址: | 100080 北京市海淀区西小口路66*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请实施例公开了一种网页信息的获取方法和计算机存储介质。所述方法包括:获取网页中链接信息的统一资源定位符URL;将URL中包括相同标签路径信息的URL分为一类,得到n个分类,其中n为大于等于2的自然数;计算每个分类的URL的文本标签路径比TPR;根据所述每个分类的URL的TPR,确定所述网页中噪音内容的TPR的取值信息;根据所述噪音内容的取值信息,对所述网页中链接信息的URL进行识别,得到所述网页中的新闻型URL和/或目录型的URL。 | ||
搜索关键词: | 网页 链接信息 分类 噪音 计算机存储介质 统一资源定位符 标签路径 网页信息 文本标签 申请 | ||
【主权项】:
1.一种网页信息的获取方法,其特征在于,包括:/n获取网页中链接信息的统一资源定位符URL;/n将URL中包括相同标签路径信息的URL分为一类,得到n个分类,其中n为大于等于2的自然数;/n计算每个分类的URL的文本标签路径比TPR;/n根据所述每个分类的URL的TPR,确定所述网页中噪音内容的TPR的取值信息;/n根据所述噪音内容的取值信息,对所述网页中链接信息的URL进行识别,得到所述网页中的新闻型URL和/或目录型的URL。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于恩亿科(北京)数据科技有限公司,未经恩亿科(北京)数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910911511.1/,转载请声明来源钻瓜专利网。
- 上一篇:数据处理方法和装置
- 下一篇:数据呈现方法、装置、计算机设备及存储介质