[发明专利]一种面向博客网页的网页检索系统及方法无效
| 申请号: | 201310141784.5 | 申请日: | 2013-04-22 |
| 公开(公告)号: | CN103218443A | 公开(公告)日: | 2013-07-24 |
| 发明(设计)人: | 罗笑南;曾金龙;林格 | 申请(专利权)人: | 中山大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 510006 广东省广州市番禺*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 博客 网页 检索系统 方法 | ||
技术领域
本发明涉及网页检索技术领域,尤其涉及一种面向博客网页的网页检索系统及方法。
背景技术
在过去的几年中,基于互联网的搜索引擎获得了巨大的成功,而基于搜索引擎发家的Google公司也获得了巨大的回报,Google每天的广告收入就超过1亿美金。中国国内的搜索引擎也因为360和百度的大战而呈现活跃的场面,越来越多的公司投入到搜索引擎的战争中,因为它和浏览器一样,都是互联网的入口。然而不同的公司对其核心技术都是实行严格的保密的,外界无法获知其实现方案;而且,现在的搜索引擎的性能也各有优劣势,在不同的环境各有长处。
目前,在传统互联网上的搜索引擎并不能很好的满足移动环境,并且在细分的领域,通用的诸如百度、Google等搜索引擎并不是最好的,在搜索的精度方面依然有着很大的提升空间。特别是在博客系统中,现在并没有一种完全是针对博客系统而开发的搜索引擎,以及在博客主题相关的网页检索以及重排序方面并不理想。
现在的搜索引擎没有能够针对博客系统的特性进行相关主题的检索和重排序;而是和一般的网页一样,都是通过控制深度的URL链进行网页的抓取。有些和主题无关的网页也提供给了用户;而且仅仅是以词频或者是单个词的匹配度进行网页相关性的度量,并不能够真正地反应博客主题。
发明内容
本发明的目的在于克服现有技术的不足,本发明提供了一种面向博客网页的网页检索系统及方法,能够很好地返回和用户搜索的博客主题相关的网页,能够有效的提高搜索的精度,去除那些主题无关的网页。
为了解决上述问题,本发明提出了一种面向博客网页的网页检索系统,所述系统包括:
信息提取模块,用于抓取与博客主题相关的网页;
数据整理模块,用于对所述信息提取模块所抓取的初始的网页进行结构化信息提取和网页消重;
索引模块,用于对所述数据整理模块所提取的数据建立索引;
检索模块,用于提供用户检索接口,根据所述索引进行检索,并对检索的结果进行排序。
优选地,所述系统还包括网页数据库,用于保存下载的网页及处理后的数据。
优选地,所述系统还包括系统接口,其中,所述系统接口包括互联网网页接口和用户检索入口。
优选地,所述网页数据库所存储的数据包括网页数据和词库索引数据;其中,所述网页数据包括:网页编号、统一资源定位符URL、标题、内容摘要、网页大小;所述词库索引数据包括:中文词库中的字词、英文单词、每个字词对应网页编号队列。
相应地,本发明实施例还公开了一种面向博客网页的网页检索方法,所述方法包括:
抓取与博客主题有关的网页;
对所抓取的初始的网页进行结构化信息提取和网页消重;
对所提取的数据建立索引;
根据所述索引进行检索,并对检索的结果进行排序。
优选地,所述对所提取的数据建立索引的步骤包括:
调用IndexWriter的addDocument;
创建一个Document对象;
在创建的Document对象中添加和命名各个字段Segment;
调用DocumentWriter的addDocument方法向索引中添加文档;
将Segment信息保存。
优选地,在所述抓取与博客主题相关的网页的步骤之后还包括:对所抓取的网页进行过滤。
优选地,所述对所抓取的网页进行过滤的步骤包括:对所抓取的网页进行博客主题的相关度评价;删除相关度较低的网页。
优选地,所述对所抓取的网页进行博客主题的相关度评价的步骤包括:
将描述主题的相关种子集页面执行关键词的获取以及加权,获得属于该主题特征的向量和向量对应的权重;
对页面的正文执行分词,除去那些停用词,留下需要的关键词;
对页面标题进行分词处理,将得到的关键词和网页正文中的关键词进行合并,并加权到获得的标题关键词之上;
根据主题的特征向量对页面内的关键词进行调整以及扩充;
计算出页面和主题的相似度sim(D,Di),其中D是主题,Di是待比较的页面;
按照sim(D,Di)值的大小以及和阈值d来比较,若sim(D,Di)大等于d,则页面和主题相关,将该网页保留到主题页面的库中;相反则删除该网页。
优选地,所述根据所述索引进行检索,并对检索的结果进行排序的步骤包括:
对搜索词进行分词处理;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310141784.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种保护java程序的方法
- 下一篇:更改文件名称的电子装置及方法





