[发明专利]网站转载数量的统计方法及装置有效
申请号: | 201510809659.6 | 申请日: | 2015-11-19 |
公开(公告)号: | CN106776609B | 公开(公告)日: | 2020-05-22 |
发明(设计)人: | 冯鸳鹤;李新国 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 韩建伟;张永明 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网站 转载 数量 统计 方法 装置 | ||
本发明公开了一种网站转载数量的统计方法及装置。其中,该方法包括:利用爬虫爬取原创文章的转载体,得到原创文章的第一网站转载结果,其中,原创文章为在目标网站上首发的文章;获取原创文章的属性信息,其中,属性信息包括标题信息和/或关键词信息;根据获取的属性信息利用搜索引擎搜索原创文章的转载体,得到原创文章的第二网站转载结果;合并原创文章的第一网站转载结果及第二网站转载结果。本发明解决了相关技术中由于转载遗漏造成的网站转载情况统计不准确的技术问题。
技术领域
本发明涉及互联网领域,具体而言,涉及一种网站转载数量的统计方法及装置。
背景技术
网站转载情况是指网站上的原创文章被其他网站转载到自己网站上以新的页面展示出来的情况,包括网站转载量等信息,它是衡量网站的传播影响力的重要指标之一,既能说明网站的权威性,也能根据每篇原创文章的转载情况分析出网民的关注热点。因此,统计网站的转载情况是对网站内容进行评估的前提条件,特别是随着某些政策性文件的出台,网站的转载情况被明确的列为考核政府网站内容的互联网影响力的核心指标之一。
目前,市面上很少有能提供计算网站转载情况功能或者服务的供应商,主要原因是:首先,确定转载需要使用自然语言处理技术,判断两个页面主要内容的一致性;其次,需要提取转载来源和时间。这两项技术就目前而言都是比较高端的技术。即使一些高新技术机构能够分析出两篇文章是否为转载关系,但他们对文章的获取都是通过爬虫对互联网各网站的爬取来实现的。这样网站转载情况的计算范围就受到很大限制。
目前,能够提供计算网站转载情况的系统都采用爬虫对互联网网页进行逐个爬取的方式来确定检测网站转载的范围,所以必然存在转载遗漏的问题。其中,转载遗漏是指实际是网站中原创文章的转载文章,但在计算网站转载情况时并没有被计算在内。发明人发现,引起转载遗漏的原因大概有两种,即检测范围不足和转载不规范(如转载时没有明示转载来源)。转载遗漏将直接导致了以下两个严重问题:得到的网站转载数量明显偏少;得到的网站中被转载的文章是错误的,并不能体现网民的关注热点。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种网站转载数量的统计方法及装置,以至少解决相关技术中由于转载遗漏造成的网站转载情况统计不准确的技术问题。
根据本发明实施例的一个方面,提供了一种网站转载数量的统计方法,包括:利用爬虫爬取原创文章的转载体,得到上述原创文章的第一网站转载结果,其中,上述原创文章为在目标网站上首发的文章;获取上述原创文章的属性信息,其中,上述属性信息包括标题信息和/或关键词信息;根据获取的上述属性信息利用搜索引擎搜索上述原创文章的转载体,得到上述原创文章的第二网站转载结果;合并上述原创文章的上述第一网站转载结果及上述第二网站转载结果。
进一步地,合并上述原创文章的上述第一网站转载结果及上述第二网站转载结果包括:删除上述原创文章的上述第二网站转载结果中与上述第一网站转载结果中的重复部分;将删除了上述重复部分的第二网站转载结果叠加到上述第一网站转载结果中。
进一步地,根据获取的上述属性信息利用搜索引擎搜索上述原创文章的转载体,得到上述原创文章的第二网站转载结果包括:根据获取的上述属性信息利用搜索引擎搜索上述原创文章的转载体;对上述原创文章与其转载体进行相似度分析;根据相似度分析结果确定上述原创文章的第二网站转载结果。
进一步地,根据相似度分析结果确定上述原创文章的第二网站转载结果包括:根据上述相似度分析结果确定出与上述原创文章的相似度大于相似度阈值的转载体;判断与上述原创文章的相似度大于上述相似度阈值的转载体的发布时间是否晚于上述原创文章的首发时间;在判断结果为与上述原创文章的相似度大于上述相似度阈值的转载体的发布时间晚于上述原创文章的首发时间的情况下,确定该转载体属于上述原创文章的第二网站转载结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510809659.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:时间的所属时间片段的确定方法和装置
- 下一篇:一种广告弹窗拦截方法及装置