[发明专利]网页视觉复杂度的自动评价方法有效
| 申请号: | 201010106759.X | 申请日: | 2010-02-03 |
| 公开(公告)号: | CN102141998A | 公开(公告)日: | 2011-08-03 |
| 发明(设计)人: | 吴偶;胡卫明 | 申请(专利权)人: | 中国科学院自动化研究所 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 梁爱荣 |
| 地址: | 100080 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 网页 视觉 复杂度 自动 评价 方法 | ||
技术领域
本发明涉及计算机应用技术领域,特别涉及一种网页视觉复杂度的评价方法。
背景技术
互联网网页不仅包含了人们所需要的各种信息,同时还是互联网的用户接口(User Interface,UI)。网页的视觉感知影响着网页的用户体验。很多领域的学者已经开始研究网页的视觉复杂度对用户网页交互的影响。已有研究指出,视觉复杂度越高的网页使得用户访问网页时候的认知复杂度越高,影响了网页的可访问性。对于一个视觉复杂度的网页,其内容很难被有视觉障碍的用户顺利获取。因此在人机交互(HumanComputer Interaction,HCI)和网页设计领域,在网页视觉复杂度评价上已有很多的工作。但是由于这些领域的研究人员通常在网页挖掘、视觉信息处理、模型构建方面比较欠缺,所设计的评价模型不适用于对大规模网页的自动评价。
发明内容
(一)要解决的技术问题
有鉴于此,本发明的主要目的是提供一种网页视觉复杂度的自动评价方法。
(二)技术方案
为达到上述目的,本发明提供了一种网页视觉复杂度的自动评价方法,该方法包括:
步骤1:首先收集尽可能多的网页样本建立训练集,利用人工来对每幅网页在视觉上是否复杂进行评判,人工标记的综合结果为视觉复杂的样本组成正类样本集,人工标记的综合结果为视觉简单的样本组成负类样本集,两个集合构成了训练集;
步骤2:获取每幅网页的源码,利用网页分割算法来对每幅网页进行分割并提取网页布局块和文本块;
步骤3:将每一幅网页转换成一副图像,提取每幅网页三个方面的特征:源码特征、结构特征以及视觉特征;
步骤4:利用得到的每幅网页的特征对随机森林分类器进行训练,得到分类器参数,并对新网页样本进行评价,判定其是否为高于复杂度阈值的网页。
其中,所述建立训练集,是请多个用户对每个网页样本在视觉上是否复杂进行评判,获得每个样本的多个视觉复杂度评判结果并对多个视觉复杂度评判结果进行平均计算,对于计算得到的平均值高于视觉复杂度阈值的网页样本,其人工标记的综合结果为视觉复杂,该样本归为正类样本,低于视觉复杂度阈值的网页样本,其人工标记的综合结果为视觉简单,该样本归为负类样本;所有的正类样本组成正类样本集合,所有的负类样本组成负类样本集合,两个集合构成了训练集;
其中,所述的源码特征包括:网页包含为文字字符个数、网页包含超链接文字字符个数、网页使用字体个数、网页背景颜色个数、网页图像个数。
其中,所述的结构特征包括:网页布局块的个数、网页文本块的个数、网页文本块总面积占总体网页的面积比、网页文字字符个数与网页文本块面积的比例、网页长宽比、网页长宽和。
其中,所述的视觉特征包括:网页的色调表示为Hue(Page)、网页的明亮度表示为Brightness(Page)、网页的彩色度表示为Colorfulness(Page)以及网页转换为图像后对应的文件大小。视觉特征的计算首先需要把一副网页首先转化为一副图形,并分别用颜色空间HSV和颜色空间RGB进行表示,然后采用以下公式:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010106759.X/2.html,转载请声明来源钻瓜专利网。





