[发明专利]基于专业搜索引擎的爬虫策略更新图书信息的方法无效

申请号：	201310535386.1	申请日：	2013-10-31
公开（公告）号：	CN104598489A	公开（公告）日：	2015-05-06
发明（设计）人：	张宇	申请（专利权）人：	大连易维立方技术有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	无	代理人：	无
地址：	116000 辽宁省大连市***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于专业搜索引擎爬虫策略更新图书信息方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种基于专业搜索引擎的爬虫策略更新图书信息的方法。

背景技术

随着电子信息行业的发展电子书逐渐代替传统的纸质书。电子书是指将文字、图片、声音、影像等讯息内容数字化的出版物以及植入或下载数字化文字、图片、声音、影像等讯息内容的集存储介质和显示终端于一体的手持阅读器。代表人们所阅读的数字化出版物，从而区别于以纸张为载体的传统出版物，通过数码方式记录在以光、电、磁为介质的设备中，借助于特定的设备来读取、复制、传输。因其具有方便性，可搜寻内容，改变字体大小及字型，还可随身携带。容量大，随时可网络下载，不受地域限制，省去大量时间。因而被人们广泛接受。目前很多电子书都是章节性更新，因为版权意识加强，很多书籍都只在一些特定网站上进行更新；及时人为手动更新，对于网站上下载下来的图书信息进行图书内容提取也是非常繁琐的。这就为手机推送图书服务带来了很大困难。

专业搜索引擎的爬虫策略，专业搜索引擎网络爬虫通常采用“最好优先”原则访问WEB，即为快速、有效地获得更多的与主题相关的页面（简称“回报”），每次选择“最有价值”的链接进行访问。由于链接包含于页面之中，而通常具有较高价值的页面包含的链接也具有较高的价值，因而对链接价值的评价有时也转换为对页面价值的评价。

web信息提取是当前比较活跃的一个研究课题，但web数据的大量性，异构性和动态性，是web信息提取的一个桎梏。对于结构化的Web数据，已经有较为成熟的解决方法；而对于非结构化的Web数据，由于传统数据库的底层问题，不能用来处理非结构化数据，迫切希望能提出一种方法进行非结构化数据的处理。为了解决这个问题，很多研究者提出了为web数据建立元数据，可将非结构化数据变成结构化或半结构化数据。但由于web数据形式的多样性，很难为多样性的数据建立一种统一标准的元数据。本为为web数据中的文本数据建立了一种Dublin Core文本元数据表，将web文本这种非结构化数据结构化。Web文本元数据分为描述性元数据和语义性元数据，描述性元数据通过分析HTML源文件直接得到。为解决上述问题提供了技术支持。

发明内容

本发明针对以上问题的提出，而研制基于专业搜索引擎的爬虫策略更新图书信息的方法。本发明采用的技术方案如下：

一种基于专业搜索引擎的爬虫策略更新图书信息的方法，其特征在于包括如下步骤：

1）图书信息收索服务器通过有线或无线的方式连接到各图书网站上；

2）图书信息收索服务器中存储有对应网站的数字许可证书，在图书信息收索服务器登陆到上述网站后，自动匹配数字证书供网站校验；

3）图书网站校验通过后，图书信息收索服务器通过专业搜索引擎的爬虫策略对图书网站中的更新图书信息进行搜索，一旦搜索到图书更新信息后，图书信息收索服务器便对更新的图书信息进行下载；

4）图书信息收索服务器将图书信息发送到图书源数据服务器中，图书资源服务器对图书信息收索服务器发送过来的图书信息进行处理，采用基于元数据的web信息提取方法对图书的文字信息进行提取，具体过程如下：①对HTML源文件进行分析，将标记流和文本流分开，根据标记流，提取题目元数据项，根据文本流将文本形式化为一个矩阵模型，在矩阵模型基础上提取文本的作者元数据项，②利用模糊数学的相关知识，为文本建立了文本状态模糊集与模糊相似矩阵，由此可提取文本的主题关键字元数据项，采用文本分类基本思想，提取题材元数据项，③为了提取内容元数据项，首先，利用模糊相似矩阵对冗长句处理，形成内容侯选句WHJ1，其次，在内容候选句WJH1中，利用模糊序贯决策论对冗长段进行处理，形成内容候选句WHJ2，最后，利用平面聚类和均值聚类算法对内容候选句集WHJ2进行聚类，然后将每一类中的相关性较小的句子剔除，最后形成文本内容元数据项；

5）图书资源服务器将编辑好的图书信息推送到客户的智能移动终端上。

步骤3）中：所述图书下载方式为通过专业搜索引擎的爬虫策略边搜索边下载。

由于采用了上述技术方案，本发明提供的方法具有：使用方便、处理速度、技术实现容易等特点。另外，该方法基于计算机系统的实现，只需将该方法编译成相应的程序即可实现对现有计算机的升级，因此其成本非常低廉适于广泛推广。

附图说明

图1为本发明所述系统的结构框图；

图2为本发明的实现流程图。

具体实施方式

如图1和图2所示一种基于专业搜索引擎的爬虫策略更新图书信息的方法包括如下步骤：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连易维立方技术有限公司;，未经大连易维立方技术有限公司;许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310535386.1/2.html，转载请声明来源钻瓜专利网。