[发明专利]网页内容识别方法、装置、服务器在审
申请号: | 201611170430.3 | 申请日: | 2016-12-16 |
公开(公告)号: | CN108205544A | 公开(公告)日: | 2018-06-26 |
发明(设计)人: | 赵铭鑫;卓居超 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N99/00 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 蒋雅洁;张颖玲 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页内容 视觉特征 特征向量 训练工具 服务器 训练网页 区块 站点 内容识别 识别装置 准确度 数据处理 网页 采集 转换 学习 | ||
1.一种网页内容识别方法,其特征在于,所述网页内容识别方法包括:
确定至少一个训练站点,并在每个训练站点内采集多个训练网页;
获取每个训练网页内被选定的内容对应的区块的视觉特征;
对所述视觉特征进行数据处理得到特征向量;以及
利用训练工具根据所述特征向量建立所述被选定的内容的识别模型。
2.如权利要求1所述的网页内容识别方法,其特征在于,确定至少一个训练站点,并在每个训练站点内采集多个训练网页的步骤包括:
根据所述训练站点的流行度确定每个训练站点采集的训练网页的数量。
3.如权利要求1所述的网页内容识别方法,其特征在于,获取每个训练网页内被选定的内容对应的区块的视觉特征的步骤包括:
选定训练网页内需标注的内容;
解析所述需标注的内容的XPath;以及
根据所述XPath查找被选定的内容对应的区块的视觉特征。
4.如权利要求1所述的网页内容识别方法,其特征在于,所述视觉特征包括数值型特征;
对所述视觉特征进行数据处理得到特征向量的步骤包括:
在向量中占一位表示一种所述数值型特征。
5.如权利要求1所述的网页内容识别方法,其特征在于,所述视觉特征包括非数值型特征;
对所述视觉特征进行数据处理得到特征向量的步骤包括:
以横向的one-hot representation模式表示所述非数值型特征。
6.如权利要求1所述的网页内容识别方法,其特征在于,所述训练工具为GBDT训练工具。
7.如权利要求1所述的网页内容识别方法,其特征在于,所述网页内容识别方法还包括:
接收网页的特征标识,并根据所述特征标识查找到待识别网页;
将所述待识别网页的所有区块的视觉特征转换为特征向量;以及
利用识别模型根据所述待识别网页的特征向量识别出待识别网页中相应的内容的XPath。
8.如权利要求7所述的网页内容识别方法,其特征在于,所述网页内容识别方法还包括:
根据所述待识别网页中相应的内容的XPath抽取所述待识别网页的相应内容。
9.一种网页内容识别装置,其特征在于,所述网页内容识别装置包括:
数据采集模块,用于确定至少一个训练站点,并在每个训练站点内采集多个训练网页;
视觉特征获取模块,用于获取每个训练网页内被选定的内容对应的视觉特征;
数据处理模块,用于对所述视觉特征进行数据处理得到特征向量;以及
模型建立模块,用于利用训练工具根据所述特征向量建立所述被选定的内容的识别模型。
10.如权利要求9所述的网页内容识别装置,其特征在于,所述数据采集模块根据所述训练站点的流行度确定每个训练站点采集的训练网页的数量。
11.如权利要求9所述的网页内容识别装置,其特征在于,所述视觉特征获取模块包括:
选定单元,用于选定训练网页内需标注的内容;
解析单元,用于解析所述需标注的内容的XPath;以及
获取单元,用于根据所述XPath查找被选定的内容对应的区块的视觉特征。
12.如权利要求9所述的网页内容识别装置,其特征在于,所述数据处理模块包括:
数值型特征处理单元,用于将所述视觉特征中的数值型特征在向量中占一位表示。
13.如权利要求9所述的网页内容识别装置,其特征在于,所述数据处理模块包括:
非数值型特征处理单元,用于将所述视觉特征中的非数值型特征以横向的one-hotrepresentation模式表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611170430.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种歌曲信息存储方法和系统
- 下一篇:一种为用户提供推荐信息的方法与设备