[发明专利]一种视频下载服务网站的识别、评估方法及系统无效
申请号: | 201010186795.1 | 申请日: | 2010-05-26 |
公开(公告)号: | CN101853300A | 公开(公告)日: | 2010-10-06 |
发明(设计)人: | 刘锐;朱明;易荣峰 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/00 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;陈亮 |
地址: | 230026*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 下载 服务 网站 识别 评估 方法 系统 | ||
1.一种视频下载服务网站的识别、评估方法,其特征在于,所述方法包括:
获取需要处理的目标网站首页的统一资源定位符URL列表,并调用网页采集模块在规则数据库所制定的采集规则的指导下,根据所获取的URL列表来采集所述目标网站的网页;
通过关联分析和深度URL探测来分析所采集到的目标网站网页,识别是否为提供视频下载服务的网站,同时将识别出的视频信息更新到预先建立的视频信息数据库中;
若识别该网站为视频下载服务网站且为初次访问,则利用所述视频信息数据库中的视频信息对所述网站进行相关度分析,完成对该网站的评估;
利用预先制定的信息抽取规则来抽取所述目标网站网页视频的相关信息,并将其存储到所述视频信息数据库中,同时更新所述规则数据库。
2.如权利要求1所述的方法,其特征在于,所述调用网页采集模块在规则数据库所制定的采集规则的指导下,根据所获取的URL列表来采集所述目标网站的网页,具体过程为:
访问目标网站首页,设定当前首页的深度值为0,其父URL节点为本身;
获取所述首页中指向站内的所有URL1,标记为所述首页的子URL节点,深度值为1,并存入队列中;
若预先制定的视频服务版块的定位规则非空,则将所述定位规则所对应的视频服务版块的URL集合加入到队列的尾部,并设置其深度值为0,且其本身为父URL节点;
若预先制定的网页采集规则非空,则根据所述网页采集规则调整所述URL列表,将包含所述URL特征的URLi+1优先加入到队列尾部,否则将所有的URLi+1按获取顺序加入到队列尾部,其中,所述URL特征为URL字符串中去除数字与哈希HASH码后的剩余部分;
依次从队列首部取出URLi,设定其深度值为i,并下载相应的页面,获取该页面中指向站内的所有URLi+1,标记深度值为i+1,构建由对应页面及其父节点与子节点组成的链表<URLi-1,URLi,URLi+1>;
若有m个(m<=i)为视频服务页面,且为非首页子节点,则标记父节点URLi-1的视频权系数为m,即<URLi-1,m>;
循环访问直至到达预先指定的深度阈值,并存储所有视频权系数m大于预先指定阈值的URL列表到所述视频服务版块定位规则中。
3.如权利要求1所述的方法,其特征在于,所述通过关联分析和深度URL探测来分析所采集到的目标网站网页,识别是否为提供视频下载服务的网站,具体包括:
利用关联分析器,输入在评估关键词数据库中所设定的健康类关键词,进行所述目标网站网页与视频下载服务主题关联度的分析处理,若满足预先制定的阈值条件,则继续进行后继的处理;
通过调用深度URL探测器,识别视频下载地址的URL并对其进行深度URL探测,若探测得到所述目标网站网页存在与视频下载相关的关键字段,则标记所述目标网站网页为提供视频下载服务的页面。
4.如权利要求1所述的方法,其特征在于,所述利用所述视频信息数据库中的视频信息对所述网站进行相关度分析,完成对该网站的评估,具体包括:
利用关联分析器,输入在评估关键词数据库中所设定的不良类关键词,识别出提供不良视频下载服务的页面;
利用随机相关匹配模块,检测所述目标网站所提供下载的视频与所述视频信息数据库中历史站点视频的相关度,并返回相匹配的视频标题数;
利用综合判定模块,根据所述关联分析器和所述随机相关匹配模块所返回的结果来综合判定所述目标网站的性质,完成对该网站的评估。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010186795.1/1.html,转载请声明来源钻瓜专利网。