[发明专利]基于超链分析的页面语义信息提取方法及系统有效

申请号：	201510575406.7	申请日：	2015-09-11
公开（公告）号：	CN105243091B	公开（公告）日：	2018-11-13
发明（设计）人：	汤奇峰;吴军	申请（专利权）人：	晶赞广告（上海）有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	上海国智知识产权代理事务所(普通合伙) 31274	代理人：	潘建玲
地址：	200072 上海市闸***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于超链分析的页面语义信息提取方法及系统，该方法包括如下步骤：步骤一，从某一网站的首页开始，逐层抓取当前层下面的所有超链信息；步骤二，对步骤一的抓取结果进行统计学习匹配，对每层获取的超链信息中的锚文本和超链接分别进行切分，计算锚文本与超链接的切分结果之间的相似度，根据相似度获得锚文本与超链接的切分结果的匹配度，本发明通过爬虫按照一定层次爬取页面的超链，以很小的成本和时间来实现对网站层次数据信息的获取，同时通过利用网页语义信息和url模板一一对应的算法来实现对网站信息的理解，从而实现给定一个url就能知道该url所代表的页面信息和层次信息的目的。
搜索关键词：	基于分析页面语义信息提取方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.基于超链分析的页面语义信息提取方法，包括如下步骤：步骤一，从某一网站的首页开始，逐层抓取当前层下面的所有超链信息；步骤二，对步骤一的抓取结果进行统计学习匹配，对每层获取的超链信息中的锚文本和超链接分别进行切分，计算锚文本与超链接的切分结果之间的相似度，根据相似度获得锚文本与超链接的切分结果的匹配度；具体包括：步骤2.1,对每一个锚文本进行中文切词，记作W数组，其中的子项记为w；步骤2.2，将每一行的超链接按照一定的分隔符切分，记作U数组，其中的子项记为u；步骤2.3，将抓取下来的所有数据的行数记作N，对W中每一项和U中每一项，都表示成一个N维的向量，并进行赋值；赋值方法如下：如果W中的w在第m行出现，则w向量第m位为1，向量其余位都为0；步骤2.4，计算每一行数据中，U中每一个u到对应的W中每一个w的余弦距离，获得相似度；两个n维样本点w(x11,x12,…,x1n)和u(x21,x22,…,x2n)的夹角余弦为：步骤2.5，对每一个u，如果它在N行中的M行出现，则需对它对应的每一个w的值进行加权处理；其中，count(w,u)是w，u共同出现的次数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于晶赞广告（上海）有限公司，未经晶赞广告（上海）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510575406.7/，转载请声明来源钻瓜专利网。

上一篇：桶板自动分度切边机
下一篇：可缩放矢量图形图像的重组方法及重组装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于超链分析的页面语义信息提取方法及系统有效

专利文献下载