[发明专利]指定需求范围的网页信息自主搜集筛选系统在审
| 申请号: | 202011536333.8 | 申请日: | 2020-12-22 |
| 公开(公告)号: | CN112597370A | 公开(公告)日: | 2021-04-02 |
| 发明(设计)人: | 刘秀萍 | 申请(专利权)人: | 荆门汇易佳信息科技有限公司 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 448000 湖北省荆门市*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 指定 需求 范围 网页 信息 自主 搜集 筛选 系统 | ||
1.指定需求范围的网页信息自主搜集筛选系统,其特征在于,系统设计主要包括:一是指定需求范围网页数据智能获取,二是清洗网页数据和提取文本,三是提取文本特征,四是网页数据保存,五是网页数据筛选,六是筛选数据输出;本发明采用广度优先的网页抓取方式,依据某些重点url,对其进行拓展获取,并在后续工作中分析提取其文本内容,在提取文本内容的同时采用基于DOM分块方法对网页进行分块,在此基础上对噪声网页数据进行清洗,最后对所获取的网页通过HTML结构化解析和中文分词处理,表示成特征向量,应用文本分类算法分别计算其与训练语料库中向量类别的相似性,保留大于临界值的类别,滤除无效网页数据;
指定需求范围的网页信息自主搜集筛选系统由三个分系统构成,分别为:网页信息自主搜集分系统、网页数据自主分类分系统、信息检索输出分系统,各分系统根据用户需求和系统设计,分别有不同的分工;网页信息自主搜集分系统主要完成主题网页的搜索、下载和清洗工作,搜索并保存指定需求范围相关的互联网信息,监测网页上指定范围事件发生、发展的最新动态,使系统使用人员能够及时、完整的掌控所关注的内容;网页数据自主分类分系统将网页信息自主搜集分系统处理后的与主题内容相关的网页数据,利用中文分词、信息提取、文本分类方法进行自主分类处理,并滤除无效网页;信息检索输出分系统主要是实现站内信息的关联分析、内容检索和数据输出显示;
指定需求范围的网页信息自主搜集筛选系统工作流程原理为:
流程一:网页信息自主搜集分系统搜集URL、下载网页并清洗网页;
流程二:网页数据自主分类分系统负责将系统搜集到有效网页进行中文分词、特征项提取、文本分类,并滤除无效信息;
流程三:信息检索输出分系统进行站内信息的关联挖掘、检索和结果输出;
网页数据自主分类分系统主要算法包括:一是文本前置处理:文本前置处理主要包括剔除停用词、文本分词、统计参数过程;二是分类过程,分类过程步骤为:
第1步:对需判断类别属性的新文本进行HTML文件解析、中文分词、特征项提取,将文本表示为特征向量;
第2步:计算第1步得到的特征向量与训练文档集每个类别向量的距离,得到相似度最大的候选类别列表;
第3步:基于训练得到的每个类别的临界值,将第2步的结果与之比较,保留大于某个临界值的属性类别作为分类结果。
2.根据权利要求1所述的指定需求范围的网页信息自主搜集筛选系统,其特征在于,指定需求范围网页数据的智能获取是系统的起始环节,其主要工作为:从某主题网站的初始网页出发,下载并分析这个网页,获取与这个网页相链接的全部网页的URL,再把这个URL集全部加到一个有序的待搜集队列中,由搜集器顺序取出URL,获取这些URL所指向的页面,再从新的网页中解析出新的URL,如此不停的爬取,直到根据某种策略停止搜集;
设计搜集程序时,需要采用哈希表来记录哪些网页已经下载过,避免同一个网页被多次下载;判断一个网页的URL是否已经下载过,采用哈希表平均只需约一次的查找就可实现,如果遇到已下载的网页,搜集程序就跳过,如果没有下载过,除了要下载该网页,还需在下载完成后,把此网页的URL保存入哈希表中;
本系统搜集程序主要是自主爬取互联网络并下载与指定需求范围相关的网页,并将这些网页经过初步处理后把结果保存到本地,其中第1步就是解析网页的HTML代码,获取其中的所有URL,再利用搜索策略开始搜集程序;
基于网页蜘蛛技术的搜索策略,在设计搜集程序时最主要的是在有限时间内尽可能多的抓取最重要的网页,各网站最重要的网页是它的首页,搜集程序应当是爬取网页的首页及首页直接链接的所有网页,从系统功能需求出发,主要是搜集主题明确的指定需求范围相关的网页,所以采用广度优先的搜索策略,从某些重点URL出发,对其进行拓展爬取PageRank排名高的主题网页,后续进行文本内容提取,并且在文本提取的同时清洗无效网页,最后剔除相似网页。
3.根据权利要求1所述的指定需求范围的网页信息自主搜集筛选系统,其特征在于,清洗网页数据和提取文本:清洗过程只需考虑文本内容,对图像、视频不用理会,网页清洗通过剔除掉网页中噪声干扰,仅保留网页的主题内容,网页清洗通过将网页分块,来区别一个网页中的主题内容和噪声信息,本发明采用基于DOM的网页分块方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于荆门汇易佳信息科技有限公司,未经荆门汇易佳信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011536333.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动输送面纸型纸张贴面机
- 下一篇:一种光纤陶瓷尾柄插芯自动加工设备





