[发明专利]一种网络信息采集方法在审
申请号: | 201711308167.4 | 申请日: | 2017-12-11 |
公开(公告)号: | CN110020160A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 王雅文 | 申请(专利权)人: | 镇江共远软件开发有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 212000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络信息 判断模块 网络账号 筛选 数据存储模块 网络信息采集 网络信息技术 关联 关键词查找 关注信息 实时性 存储 查找 | ||
本发明公开了一种网络信息采集方法,其属于网络信息技术领域;采用一个判断模块对多个网络账号进行筛选以找出关注账号,随后采用判断模块对被筛选出的网络账号所关联的网络信息进行筛选以找出关注信息;采用一个数据存储模块存储被筛选出的网络账号以及所关联的网络信息;判断模块与数据存储模块连接;上述技术方案的有益效果是:较精确地通过关键词查找相关网络信息,且查找方便,关键词设置准确;对于网络信息的获取实时性也较好。
技术领域
本发明涉及网络信息技术领域,尤其涉及一种网络信息采集方法。
背景技术
现有技术中由于每时每刻发布的网络信息数量庞大,对其进行关键词匹配从而进行搜索较为困难,具体体现在:1)关键词范围难以确定;2)不能很好地抓取想要的网络数据;3)搜索出的数据可能不是最新的网络数据,即数据的实时性较差。
中国专利(CN101472250)公开了一种针对不良短消息的关键词防范方法,包括如下步骤:(1)运营商或者业务提供商预先提供一份针对不良短消息的关键词列表,关键词列表的每个条目包括两项内容:关键词、关键词的出现概率;(2)用户获得关键词列表的全部内容或者一个子集;(3)将已获得的关键词合并到用户手机内部的关键词列表中;(4)用户手机根据关键词列表直接过滤包含关键词的短消息。上述技术方案主要针对短消息防范,且对于关键词的选择并不能保证精确,无法解决现有技术中存在的问题。
发明内容
根据现有技术中存在的缺陷,现提供一种网络信息采集方法的技术方案,具体包括:
一种网络信息采集方法,其中,采用一个判断模块对多个网络账号进行筛选,随后采用所述判断模块对被筛选出的所述网络账号所关联的网络信息进行筛选;
采用一个数据存储模块存储被筛选出的所述网络账号以及所关联的所述网络信息;
所述判断模块与所述数据存储模块连接,;
所述网络信息采集方法具体包括:
步骤1,获取多个网络账号,以作为所述关注账号并保存;
步骤2,获取多个所述关注账号所发布的多条所述网络信息,以作为所述关注信息并保存;
步骤3,返回本次信息获取的所述网络信息的发布序号的最大值,并作为最大序号信息,并保存;
步骤4,经过一预设的第一时间间隔后,返回所述步骤1。
优选的,该网络信息采集方法,其中,在所述数据存储模块内设置多个第一存储空间;采用所述判断模块对多个所述网络账号进行筛选,并以被筛选出的所述网络账号作为关注账号;
每个所述第一存储空间用于保存一个所述关注账号。
优选的,该网络信息采集方法,其中,所述步骤1中,将多个所述关注账号所关联的所述网络账号作为所述关注账号,并保存入所述第一存储空间内。
优选的,该网络信息采集方法,其中,在所述数据存储模块内设置多个第二存储空间,采用所述判断模块对多个所述关注账号所关联的多条所述网络信息进行筛选,并以被筛选出的所述网络信息作为关注信息;
每个所述第二存储空间包括多个独立的存储块,每个所述存储块用于保存一个所述关注信息;每个所述第二存储空间对应一个所述第一存储空间。
优选的,该网络信息采集方法,其中,采用一个删除模块去除保存于多个所述第一存储空间中的所述关注账号;
所述删除模块连接所述数据存储模块;
若所述关注账号超过一预设的第二时间间隔未发布所述网络信息,则将所述关注账号从所述第一存储空间中去除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于镇江共远软件开发有限公司,未经镇江共远软件开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711308167.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于数据特征的舆情分析方法和系统
- 下一篇:数据处理方法、日志处理方法和终端