[发明专利]一种页面元素分类方法、解析器、介质及设备在审
申请号: | 202110378864.7 | 申请日: | 2021-04-08 |
公开(公告)号: | CN113065600A | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 游海涛;梁兴通;王琳;杨丰佳 | 申请(专利权)人: | 易联众信息技术股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F8/20 |
代理公司: | 厦门加减专利代理事务所(普通合伙) 35234 | 代理人: | 李强;杨泽奇 |
地址: | 361008 福建省厦*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 页面 元素 分类 方法 解析 介质 设备 | ||
1.一种页面元素分类方法,其特征在于,包括以下步骤:
S100:提取已知页面元素并分类,对已分类的所述已知页面元素进行元素特征提取;
S200:建立逻辑回归模型,对所述逻辑回归模型进行分类训练;
S300:根据训练完成的所述逻辑回归模型,对页面文件上的页面元素进行分类。
2.根据权利要求1所述的一种页面元素分类方法,其特征在于:根据所述已知页面元素的功能特点进行分类,所述已知页面元素包括但不限于展示元素、可操作元素、列表元素或外部元素;
通过判断所述元素特征包含的影响因子,对比所述影响因子的内容、顺序或比重确定元素类型,再根据所述元素类型提取所述元素特征,所述元素特征包括但不限于标签、结构、命名习惯或属性事件。
3.根据权利要求2所述的一种页面元素分类方法,其特征在于:基于Logistic分布函数建立所述逻辑回归模型,所述Logistic分布函数为
其中,μ为位置参数,γ0为形状参数。
4.根据权利要求3所述的一种页面元素分类方法,其特征在于:使用独热编码进行特征编码提取所述元素特征,所述元素特征对应的所述影响因子为已知影响因子时,所述元素特征形成分类样本;
通过所述分类样本对所述逻辑回归模型进行分类训练,再拟合决策边界建立决策边界与分类训练概率之间的联系,使所述逻辑回归模型得到页面元素的分类概率。
5.根据权利要求4所述的一种页面元素分类方法,其特征在于:所述元素特征对应的所述影响因子为未知影响因子时,利用稳定性选择方法中的随机逻辑回归进行特征筛选,再利用筛选后的补充元素特征添加到所述逻辑回归模型中,反向传播和修正所述逻辑回归模型中的元素特征及对应的影响因子。
6.根据权利要求1所述的一种页面元素分类方法,其特征在于,对页面文件上的文件页面元素进行分类包括以下步骤:
S301:提取页面文件上的页面元素;
S302:将提取的所述页面元素输入至已训练完成的所述逻辑回归模型;
S303:所述逻辑回归模型输出分类完成的页面元素组。
7.根据权利要求6所述的一种页面元素分类方法,其特征在于:步骤301中,在页面文件上使用XPath的模糊查找,基于document逐层解析Dom节点,进行页面元素的提取。
8.一种页面元素分类解析器,其特征在于,包括:
元素提取模块,用于提取已知页面元素并分类,对已分类的所述已知页面元素进行元素特征提取;
建模训练模块,用于建立逻辑回归模型,对所述逻辑回归模型进行分类训练;
元素分类模块,用于根据训练完成的所述逻辑回归模型,对页面文件上的页面元素进行分类。
9.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机指令,所述计算机被处理器执行时实现如权利要求1-7任一项所述的一种页面元素分类方法。
10.一种计算机设备,其特征在于:包括至少一个处理器、及与所述处理器通信连接的存储器,其中所述存储器存储可被至少一个处理器执行的指令,所述指令被至少一个处理器执行,以使所述处理器执行如权利要求1-7任一项所述的一种页面元素分类方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于易联众信息技术股份有限公司,未经易联众信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110378864.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于子宫内膜超声图像的自动分割分型及厚度测量方法
- 下一篇:钩子