[发明专利]网站信息合并去重方法有效

申请号：	201310508282.1	申请日：	2013-10-24
公开（公告）号：	CN103544283B	公开（公告）日：	2017-02-01
发明（设计）人：	初殿松	申请（专利权）人：	青岛英网资讯股份有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	青岛联信知识产权代理事务所37227	代理人：	王月玲,王中云
地址：	266000 山东省青岛市***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网站信息合并方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于互联网技术领域，具体涉及一种网站信息合并去重方法。

背景技术

随着互联网技术的发展，网络平台已经成为人们获取信息的主要方式，同种类型的网站也越来越多，随之也发生了这样一种现象：即相同的信息发布在不同的网络上，例如：同样是某公司发布的商贸信息，该商贸信息将会发布在同类的多个商贸网站上，用户在浏览网站，寻找信息时，将会大量重复的浏览，获得大量重复信息，造成时间和劳动的浪费，无法最大程度的享受互联网带来的便利。

这种问题形成的关键原因即是各个同类的网站为独立运行的网站，彼此之间没有信息联系，目前尚没有一个综合信息的网站，可以对孤立于各个独立网站的信息进行分析，对重复的信息进行去重处理，当用户浏览该综合信息的网站时即可以获得多个同类网站的信息量，节省用户的浏览时间，为用户带来便利。研究一种对网站信息的合并去重技术具有重要意义。

发明内容

本发明的目的在于提供一种应用于同类型网站的网站信息合并去重方法。

本发明的技术方案是：一种网站信息合并去重方法，该方法包括以下步骤：

（1）获取所需分析的多个目标网站的数据信息，对数据信息在各网站之间进行横向比较，对信息进行合并去重；

（2）获取每个目标网站内部的数据信息，对网站内部之间的数据进行纵向比较，合并去重；

（3）将合并去重后的信息在新的网站页面显示。

优选的是：获取所需分析的多个目标网站的数据信息，对数据信息在各网站之间进行横向比较，对信息进行合并去重的过程主要包括以下步骤：

（1）根据目标网站的结构，设置所需分析目标网站的网站模板，并设定目标网站URL；

（2）为每个目标网站的网站模板设定独立的线程，进行网站页面数据内容的分析；

（3）每个网站模板的独立线程独立采集所对应目标网站的主页面的标签内容和主页面标签下对应的分页面的标签内容，独立线程在信息采集的过程中对所采集的各目标网站之间的信息在各目标网站之间进行横向对比，即将采集到网站主页面的标签内容进行比较，若发现标签内容相同，则对内容进行合并去重，同时也对主页面对应的分页面标签内容进行比较，若发现标签内容相同，则对内容进行合并去重；

（4）以主页面的标签内容及其对应的分页面标签内容为存储单元，将去重结果存储在内存中；

（5）设定内存存储上线，计算内存中存储单元的数量，若内存中存储单元的数量超过设定的存储上线，则将内存中存储单元的信息存储到数据库。

优选的是：获取每个目标网站内部的数据信息，对网站内部之间的数据进行纵向比较，合并去重的过程主要包括：

（1）对每个目标网站的主页面内容进行分析，根据网站URL获取主页面标签信息对应的HTML代码；对HTML代码进行解析，获取目标网站主页面标签信息；

（2）对网站主页面标签所对应的分页面进行分析，获取并解析分页面URL，获取分页面标签内容，以主页面的标签内容及其对应的分页面标签内容为存储单元，将存储单元内容进行比较，对比较结果合并去重，将去重结果存放在内存中；

（3）设定内存存储上线，计算内存中存储单元的数量，若内存中存储单元的数量超过设定的存储上线，则将内存中存储单元的信息存储到数据库。

优选的是：网站模板的设计过程包括分析所需比较的各目标网站的结构，根据网站结构设定抓取需要的数据主页URL、数据主页下对应的数据分页URL、需抓取的页面标签，通过正则表达式匹配、DOM解析HTML标签元素；通过网站模板可以得到需要的网站内容。

优选的是：每个独立线程对目标网站信息采集及比较完毕后，自动清理采集过程中的脏数据，即对网站内容分析无意义的数据或非法格式数据，以及在源系统中存在的不规范的代码或含糊业务逻辑。

优选的是：在横向对比和纵向对比过程中向内存存储信息时，先将要存储的信息在内存内进行查找，若内存内已存在相同的数据信息，不进行重复存储；若内存内没有相同的数据信息，则将信息存入内存中。

优选的是：在横向对比和纵向对比过程中，将内存中存储单元的信息存储到数据库的过程中，先将要存储的信息在数据库内进行查找，若数据库内已存在相同的数据信息，不进行重复存储；若数据库内没有相同的数据信息，则将信息新增入库。

优选的是：在网页内部纵向对比获取分页面标签内容的过程中，解析分页面URL，判断标签更新时间，若标签的更新时间早于当前时间，则跳过当前职位解析。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于青岛英网资讯股份有限公司，未经青岛英网资讯股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310508282.1/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]网站信息合并去重方法有效

专利文献下载