[发明专利]网页关键词出现频次检测方法及装置有效
申请号: | 201410742890.3 | 申请日: | 2014-12-05 |
公开(公告)号: | CN104391977B | 公开(公告)日: | 2018-04-03 |
发明(设计)人: | 谭紫萱;杨韬;王晓群;张松 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京康信知识产权代理有限责任公司11240 | 代理人: | 李志刚,吴贵明 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 关键词 出现 频次 检测 方法 装置 | ||
1.一种网页关键词出现频次检测方法,其特征在于,包括:
确定第一待检测网页关键词和第二待检测网页关键词,其中,所述第一待检测网页关键词属于第二待检测网页关键词,所述第一待检测网页关键词属于所述第二待检测网页关键词是指所述第二待检测网页关键词包含所述第一待检测网页关键词;
对所述第二待检测网页关键词发出访问请求,并获取请求结果,其中,所述请求结果包括所述第二待检测网页关键词对应的多个链接地址;
分别获取所述多个链接地址对应的多个网页的网页内容;以及
检测在所述多个网页的网页内容中出现所述第一待检测网页关键词的网页的个数。
2.根据权利要求1所述的方法,其特征在于,检测在所述多个网页的网页内容中出现所述第一待检测网页关键词的网页的个数之后,所述方法还包括:
分别检测所述第一待检测网页关键词在所述多个网页的网页内容中出现时网页内容的情感倾向特征,其中,所述情感倾向特征包括正面情感倾向特征和负面情感倾向特征;以及
分别统计所述第一待检测网页关键词在所述多个网页的网页内容中出现时网页内容的情感倾向特征为正面情感倾向特征和负面情感倾向特征的次数。
3.根据权利要求1所述的方法,其特征在于,检测在所述多个网页的网页内容中出现所述第一待检测网页关键词的网页的个数之后,所述方法还包括:
统计所述第二待检测网页关键词对应的多个链接地址的个数;以及
根据在所述多个网页的网页内容中出现所述第一待检测网页关键词的网页的个数和所述第二待检测网页关键词对应的多个链接地址的个数计算所述第一待检测网页关键词的出现比率。
4.根据权利要求1所述的方法,其特征在于,检测在所述多个网页的网页内容中出现所述第一待检测网页关键词的网页的个数之后,所述方法还包括:
确定第三待检测网页关键词,其中,所述第三待检测网页关键词属于所述第二待检测网页关键词,所述第三待检测网页关键词和所述第一待检测网页关键词为不同的网页关键词;
检测在所述多个网页的网页内容中出现所述第三待检测网页关键词的网页的个数;以及
将在所述多个网页的网页内容中出现所述第一待检测网页关键词的网页的个数和在所述多个网页的网页内容中出现所述第三待检测网页关键词的网页的个数进行比较,并获取比较结果。
5.根据权利要求1所述的方法,其特征在于,分别获取所述多个链接地址对应的多个网页的网页内容包括:利用爬虫爬取技术分别获取所述多个链接地址对应的多个网页的网页内容。
6.根据权利要求1所述的方法,其特征在于,对所述第二待检测网页关键词发出访问请求,并获取请求结果,其中,所述请求结果包括所述第二待检测网页关键词对应的多个链接地址包括:
确定预设参考数量,其中,所述预设参考数量为预先设定的获取所述第二待检测网页关键词对应的链接地址的数量;
对所述第二待检测网页关键词发出访问请求,获取请求结果,其中,所述请求结果包括所述第二待检测网页关键词对应的多个链接地址;以及
按照搜索热度由强到弱的顺序,从所述第二待检测网页关键词对应的多个链接地址中获取数量为所述预设参考数量的多个链接地址。
7.一种网页关键词出现频次检测装置,其特征在于,包括:
第一确定单元,用于确定第一待检测网页关键词和第二待检测网页关键词,其中,所述第一待检测网页关键词属于第二待检测网页关键词,所述第一待检测网页关键词属于所述第二待检测网页关键词是指所述第二待检测网页关键词包含所述第一待检测网页关键词;
第一获取单元,用于对所述第二待检测网页关键词发出访问请求,并获取请求结果,其中,所述请求结果包括所述第二待检测网页关键词对应的多个链接地址;
第二获取单元,用于分别获取所述多个链接地址对应的多个网页的网页内容;以及
第一检测单元,用于检测在所述多个网页的网页内容中出现所述第一待检测网页关键词的网页的个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410742890.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本分类方法和装置
- 下一篇:一种MIS中模糊查询方法