[发明专利]一种页面元素分类方法、解析器、介质及设备在审

专利信息
申请号: 202110378864.7 申请日: 2021-04-08
公开(公告)号: CN113065600A 公开(公告)日: 2021-07-02
发明(设计)人: 游海涛;梁兴通;王琳;杨丰佳 申请(专利权)人: 易联众信息技术股份有限公司
主分类号: G06K9/62 分类号: G06K9/62;G06F8/20
代理公司: 厦门加减专利代理事务所(普通合伙) 35234 代理人: 李强;杨泽奇
地址: 361008 福建省厦*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 页面 元素 分类 方法 解析 介质 设备
【说明书】:

本发明涉及页面元素分类技术领域,特别涉及一种页面元素分类方法、解析器、介质及设备,其中,一种页面元素分类方法,包括提取已知页面元素并分类,对已分类的所述已知页面元素进行元素特征提取;建立逻辑回归模型,对所述逻辑回归模型进行分类训练;根据训练完成的所述逻辑回归模型,对页面文件上的页面元素进行分类;先通过已知页面元素的分类及元素特征的提取,以便对逻辑回归模型进行分类训练,再利用训练完成的逻辑回归模型对页面文件上的页面元素进行分类,提升了页面元素分类的准确率,使分类更贴近于页面元素的本质特征,从而使得开发人员在升级改造中可以无需阅读源码即可得到更加合理的分类结果,降低了人工成本。

技术领域

本发明涉及页面元素分类技术领域,特别涉及一种页面元素分类方法、解析器、介质及设备。

背景技术

随着计算机技术的普及,当今人们的生活已经逐渐走入智能时代。不仅仅是电脑,手机,PAD,人们的衣食住行的方方面面都开始应用出现不久的智能技术,智能电视,智能导航,智能家居等等,智能技术将在人们生活的各个方面提供方便快捷的服务。例如,智能语音交互是基于语音输入的新一代交互模式,通过说话就可以得到反馈结果。

而互联网产品复杂多样,页面上的设计更是千差万别。其中,文字与图片是构成一个网页的两个最基本的元素。文字为网页的内容,图片为网页的美观。除此之外,网页页面的元素还包括动画、音乐、程序等等。通过页面元素的提取和分类,可以分析用户的交互行为,从而帮助产品和运营进行后续优化,如中国专利申请(公开号为CN111310044A)公开了一种页面元素信息的提取方法、装置、设备和存储介质,但是该专利申请并未提及页面元素如何进行分类。现有技术中常用的页面元素分类主要是基于html标签分类、通过标签名称进行分类或页面解析器进行页面渲染。

其中,基于html标签分类包括块级元素和行内元素等元素类别,但此种分类方案通常仅适用于进行布局和结构的搭建,无法进行准确的操作方案设计;而仅通过标签名称无法真实全面地反映元素所包含的操作逻辑,且容易形成歧义;页面解析器也仅适用实现展示的固定场景,无法作出有效的分类。而若想进行统一规范地对页面元素进行操作,则需要人工对页面文件上的元素进行逐一标注,这样无疑需要大量的人力成本不利于应用升级改造的实施。

发明内容

为解决上述现有技术中人工对页面文件上的元素逐一标注效率低的不足,本发明提供的一种页面元素分类方法,能够提升了页面元素分类的准确率,降低了人工成本。

本发明提供的一种页面元素分类方法,包括以下步骤:

S100:提取已知页面元素并分类,对已分类的所述已知页面元素进行元素特征提取;

S200:建立逻辑回归模型,对所述逻辑回归模型进行分类训练;

S300:根据训练完成的所述逻辑回归模型,对页面文件上的页面元素进行分类。

进一步地,根据所述已知页面元素的功能特点进行分类,所述已知页面元素包括但不限于展示元素、可操作元素、列表元素或外部元素;

通过判断所述元素特征包含的影响因子,对比所述影响因子的内容、顺序或比重确定元素类型,再根据所述元素类型提取所述元素特征,所述元素特征包括但不限于标签、结构、命名习惯或属性事件。

进一步地,基于Logistic分布函数建立所述逻辑回归模型,所述Logistic分布函数为

其中,μ为位置参数,γ0为形状参数。

进一步地,使用独热编码进行特征编码提取所述元素特征,所述元素特征对应的所述影响因子为已知影响因子时,所述元素特征形成分类样本;通过所述分类样本对所述逻辑回归模型进行分类训练,再拟合决策边界建立决策边界与分类训练概率之间的联系,使所述逻辑回归模型得到页面元素的分类概率。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于易联众信息技术股份有限公司,未经易联众信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110378864.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top