[发明专利]网页类型识别方法及装置有效
| 申请号: | 201310476416.6 | 申请日: | 2013-10-12 |
| 公开(公告)号: | CN103577547B | 公开(公告)日: | 2017-11-10 |
| 发明(设计)人: | 梁捷;王磊 | 申请(专利权)人: | 优视科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京律谱知识产权代理事务所(普通合伙)11457 | 代理人: | 黄云铎 |
| 地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 网页 类型 识别 方法 装置 | ||
1.一种网页类型识别方法,其特征在于,包括:
在多个已知网页类型的样本网页中分别统计是否包含多个目的页面特征,得到统计结果,包括:逐一判断所述样本网页是否包含目的页面特征;当所述样本网页包含所述目的页面特征时,记录为第一特征;当所述样本网页不包含所述目的页面特征时,记录为与第一特征不同的第二特征;构建包含所有样本网页对应第一特征、第二特征的表格,将所述表格作为统计结果;
利用决策树算法对多个样本网页的已知网页类型和统计结果进行分析,其中:
根据所述表格计算多个所述目的页面特征的信息增益,将多个所述目的页面特征按照信息增益由大到小进行排序,得到目的页面特征的优先级排序,根据多个样本网页的已知网页类型和所述目的页面特征的优先级排序生成目的页面特征与网页类型的对应关系,其中计算每个所述目的页面特征的信息增益的步骤包括:
根据所述表格计算目的页面特征的相对应第一特征的比值和第二特征的比值;其中,所述第一特征的比值为第一特征对应样本网页类型一致的概率,所述第二特征的比值为第二特征对应样本网页类型一致的概率;
分别计算第一特征和第二特征的信息熵;
根据所述第一特征和第二特征的信息熵计算目的页面特征的条件熵,其中:所述第一特征的信息熵乘以该第一特征的数量占样本网页的总数量的比值得到第一特征的条件熵,用所述第二特征的信息熵乘以该第二特征的数量占样本网页的总数量的比值得到第二特征的条件熵,将所述第一特征的条件熵和所述第二特征的条件熵相加之和作为所述目的页面特征的条件熵;
根据所述表格采用与第一特征和第二特征的信息熵的计算方法不同的方法来计算目的页面特征的信息熵,其中:首先计算样本网页的网页类型的第一特征的数量占样本网页的总数量的第一比值,样本网页的网页类型的第二特征的数量占样本网页的总数量的第二比值;接着分别求以2为底所述第一比值的对数和以2为底所述第二比值的对数,将所得的两个对数值相加之和作为所述目的页面特征的信息熵;
将目的页面特征的信息熵减去目的页面特征的条件熵得到目的页面特征的信息增益;
按照所述优先级排序在待识别网页中依次查找所述目的页面特征,根据查找结果和所述对应关系确定待识别网页的网页类型,包括:
查找待识别网页中是否存在优先级排序最大的目的页面特征,当存在所述优先级排序最大的目的页面特征时,在所述对应关系中查找与存在的目的页面特征相对应的网页类型,将查找到的网页类型作为待识别网页的网页类型;
当所述待识别网页中不存在优先级排序最大的目的页面特征时,按照优先级排序由大到小在待识别网页中依次查找其它目的页面特征,直至查找到待识别网页的网页类型。
2.根据权利要求1所述的方法,其特征在于,所述目的页面特征与网页类型的对应关系包括:一个页面特征对应一个网页类型和/或多个页面特征的组合对应一个网页类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于优视科技有限公司,未经优视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310476416.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:鼻症电疗面罩
- 下一篇:一种新型儿童头皮针固定装置





