[发明专利]网页内容对搜索引擎可见度的分析方法及装置有效
| 申请号: | 201510894827.6 | 申请日: | 2015-11-27 |
| 公开(公告)号: | CN106815278B | 公开(公告)日: | 2020-02-28 |
| 发明(设计)人: | 姜世豪;杨韬 | 申请(专利权)人: | 北京国双科技有限公司 |
| 主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/951;G06F16/953;G06F16/9535 |
| 代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 韩建伟;李志刚 |
| 地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 网页 内容 搜索引擎 可见度 分析 方法 装置 | ||
本申请公开了一种网页内容对搜索引擎可见度的分析方法及装置。该方法包括:通过预设提取工具提取目标网页源代码中的关键词,得到关键词集合,其中,关键词集合为在目标网页内容中出现的频次在预设范围内的关键词组成的集合,关键词集合中每个关键词在目标网页中出现的频次记为第一频次;在浏览器中加载目标网页后分别统计关键词集合中每个关键词出现的频次,得到每个关键词对应的第二频次;分别根据每个关键词对应的第一频次和每个关键词对应的第二频次计算关键词可见率,得到每个关键词可见率;根据每个关键词可见率分析目标网页中关键词对搜索引擎的可见度。通过本申请,解决了相关技术中分析网页中的内容对搜索引擎可见度准确率较低的问题。
技术领域
本申请涉及互联网领域,具体而言,涉及一种网页内容对搜索引擎可见度的分析方法及装置。
背景技术
随着搜索引擎技术的不断进步,从第一代搜索引擎至今,基于搜索算法的结果展现越来越贴近用户的需求,具有精确、多样化等特点。但到目前为止,搜索引擎对于网页中所使用的Javascript代码内容仍处于学习阶段,进而通过Javascript方式在浏览器中异步加载的链接、文字内容仍然无法在关键词排名中获得好的表现。因此,判断网页中核心内容是否采用搜索引擎不能识别(即被搜索引擎不可见)的方式加载,仍然是评价网页搜索引擎优化(SEO)质量的重要环节。相关技术中,通常搜索引擎在网页源代码中抓取有用信息,并剔除冗余信息。为了判断网页中内容对搜索引擎可见度,即判断搜索引擎在抓取源代码信息过程中,文字和链接是否对搜索引擎可见,现有的方式是在网页的文字和链接中随机选取重要的内容,将其在网站源代码中进行查找,若无对应的查找结果,可初步判断该文字内容是通过异步加载方式呈现在浏览器中,在源代码中对搜索引擎不可见。然而通过浏览器随机选取内容,并在源代码中查找的方式,存在的问题主要有:人工选取样本的随机性较大,无法涵盖大部分内容的检查;人工选取样本的效率较低,无法在短时间内定位核心内容;人工选取样本检查结果难以量化,无法提供代表性的指标。
针对相关技术中分析网页中的内容对搜索引擎可见度准确率较低的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种网页内容对搜索引擎可见度的分析方法及装置,以解决相关技术中分析网页中的内容对搜索引擎可见度准确率较低的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种网页内容对搜索引擎可见度的分析方法。该方法包括:通过预设提取工具提取目标网页源代码中的关键词,得到关键词集合,其中,关键词集合为在目标网页内容中出现的频次在预设范围内的关键词组成的集合,关键词集合中每个关键词在目标网页中出现的频次记为第一频次;在浏览器中加载目标网页后分别统计关键词集合中每个关键词出现的频次,得到每个关键词对应的第二频次;分别根据每个关键词对应的第一频次和每个关键词对应的第二频次计算关键词可见率,得到每个关键词可见率;以及根据每个关键词可见率分析目标网页中关键词对搜索引擎的可见度。
进一步地,在根据每个关键词可见率分析目标网页中关键词对搜索引擎的可见度之后,该方法还包括:将每个关键词对应的第一频次相加,得到第一频次总和;将每个关键词对应的第二频次相加,得到第二频次总和;根据第一频次总和与第二频次总和计算目标网页内容可见率;以及根据目标网页内容可见率分析目标网页中内容对搜索引擎的可见度。
进一步地,根据每个关键词可见率分析目标网页中关键词对搜索引擎的可见度包括:在每个关键词可见率中选取大于预设可见率的关键词可见率,并提取选取到的关键词可见率对应的关键词,得到第一关键词子集合;判定搜索引擎抓取第一关键词子集合中关键词的抓取概率大于预设抓取概率;在每个关键词可见率中选取小于或等于预设可见率的关键词可见率,并提取选取到的关键词可见率对应的关键词,得到第二关键词子集合;以及判定搜索引擎抓取第二关键词子集合中关键词的抓取概率小于预设抓取概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510894827.6/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法





