[发明专利]一种基于深度学习的网页类型智能识别方法及系统有效

申请号：	201810815713.1	申请日：	2018-07-20
公开（公告）号：	CN109241383B	公开（公告）日：	2019-06-21
发明（设计）人：	汪敏;刘鹏飞;李伦凉;李绪祥;王静;尹娜	申请（专利权）人：	北京开普云信息科技有限公司;开普云信息科技股份有限公司
主分类号：	G06F16/953	分类号：	G06F16/953;G06K9/62
代理公司：	暂无信息	代理人：	暂无信息
地址：	100083 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供了一种基于深度学习的网页类型智能识别方法及系统，包括：搜集不同类型网页数据，标记每个网页类别，并对每个网页进行预处理，得到训练集数据；对训练集中的数据，利用深度学习算法构建深度学习模型；对每个测试的网页进行预处理将所得到的数据输入所述深度学习模型，得到该测试网页的网页类型。同时，本发明还提供了一种基于深度学习的网页类型智能识别系统。采用本发明实施例，能够提高网页智能分类的准确率。
搜索关键词：	网页类型预处理智能识别网页学习智能识别系统训练集数据测试网页网页类别网页数据学习算法智能分类准确率构建搜集测试
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于深度学习的网页类型智能识别方法，该方法包括以下步骤：S1、输入待分类识别网页；S2、深度学习分类模型对输入网页进行分类识别，得到所述待分类识别网页的类别信息；所述深度学习分类模型通过以下步骤得到：S2.1、获取标记有类别的网页数据集；S2.2、筛选训练网页集和测试网页集；S2.3、对网页进行预处理操作；S2.4、深度学习分类模型计算；S2.5、深度学习模型验证；所述对网页进行预处理操作，进一步包括：S2.3.1、获取网页的HTML源代码；S2.3.2、网页净化：把一个网页中对分类没有影响或者影响分类效果的部分内容去掉；S2.3.3、文本序列化处理：将输入的网页文本的标签、短链接文字进行保留，将超过一定长度L的长链接文字使用字母进行标记，将长度超过M字的文本的每个字用特殊符号代替，将超过长度N的文本用N个特殊符号代替，得到处理后的文本序列；其中，对长链接文字进行标记的字母与特殊符号不同，L、M、N为整数，L＜M＜N；S2.3.4、矩阵转换：将文本序列转变为一个二维矩阵。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京开普云信息科技有限公司;开普云信息科技股份有限公司，未经北京开普云信息科技有限公司;开普云信息科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810815713.1/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度学习的网页类型智能识别方法及系统有效

专利文献下载