[发明专利]一种用于识别标记语言文件主体内容的方法和设备有效
申请号: | 201110249348.0 | 申请日: | 2011-08-26 |
公开(公告)号: | CN102314497A | 公开(公告)日: | 2012-01-11 |
发明(设计)人: | 李伟刚;秦玄铮 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京汉昊知识产权代理事务所(普通合伙) 11370 | 代理人: | 罗朋 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 识别 标记 语言 文件 主体 内容 方法 设备 | ||
技术领域
本发明涉及互联网技术,尤其涉及用于识别标记语言文件主体内容的技术。
背景技术
随着移动互联网技术的发展及广泛应用,越来越多的用户通过移动终端,如智能手机等,访问互联网网页,但因移动终端的屏幕尺寸的限制,当在计算机中浏览的HTML网页在移动终端的屏幕上显示前,需将其网页内容进行过滤,只保留网页的主体内容,以便于用户浏览。现有技术中,识别HTML网页中主体内容的方法通常利用关键字对该网页内容中进行匹配而获得,其中,主体内容意指该网页中携带的区别于其他同类网页的内容,例如新闻网页中包括新闻标题、新闻内容、其他新闻的链接、友情链接、广告等,但该网页的主体内容为新闻标题和新闻内容,该方法的缺点在于其对识别网页的主体内容不具有通用性,即其正则表达式需根据具体的网页类型进行定制,否则识别的准确率将降低。
因此,如何利用一种通用方法来识别如HTML等标记语言文件主体内容成为亟待解决的问题。
发明内容
本发明的目的是提供一种用于识别标记语言文件主体内容的方法与设备。
根据本发明的一个方面,提供一种计算机实现的用于识别标记语言文件主体内容的方法,其中,该方法包括以下步骤:
a获取待处理的多个标记语言文件;
b根据所述多个标记语言文件的相关信息,获得一组或多组标记语言文件;
c对至少一组标记语言文件的每组中的各个标记语言文件所对应的各DOM树中相应节点的内容进行比较分析,以获得包含该组标记语言文件的主体内容的主体内容节点;
d根据所获得的主体内容节点,来获得用以识别该组标记语言文件主体内容的内容标识模板。
根据本发明的另一个方面,还提供一种用于识别标记语言文件主体内容的设备,其中,该设备包括:
文件获取装置,用于获取待处理的多个标记语言文件;
第一获取装置,用于根据所述多个标记语言文件的相关信息,获得一组或多组标记语言文件;
比较分析装置,用于对至少一组标记语言文件的每组中的各个标记语言文件所对应的各DOM树中相应节点的内容进行比较分析,以获得包含该组标记语言文件的主体内容的主体内容节点;
模板获取装置,用于根据所获得的主体内容节点,来获得用以识别该组标记语言文件主体内容的内容标识模板。
如上所述,与现有技术相比,本发明通过提供一种通用的方法来获取用于识别某类标记语言文件的主体内容的内容标识模板,该方法不依赖于标记语言文件中的具体内容而根据该标记语言文件的结构信息获取主体内容,并据此将该内容标识模板应用于提取该类标记语言文件的主体内容,从而保证对不同类型网页的主体内容识别的准确率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为根据本发明一个方面的用于识别标记语言文件主体内容的设备示意图;
图2为根据本发明用于识别标记语言文件主体内容的示例图;
图3为根据本发明用于识别标记语言文件主体内容的示例图;
图3A为根据本发明用于识别标记语言文件主体内容的示例图;
图3B为根据本发明用于识别标记语言文件主体内容的示例图;
图4为根据本发明一个优选实施例的用于识别标记语言文件主体内容的设备示意图;
图5为根据本发明另一个方面的用于识别标记语言文件主体内容的方法流程图;
图6为根据本发明一个优选实施例的用于识别标记语言文件主体内容的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1为根据本发明一个方面的用于识别标记语言文件主体内容的设备示意图。模板提供设备1包括文件获取装置11、第一获取装置12、比较分析装置13和模板获取装置14。在此,模板提供设备1包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
如图1所示,文件获取装置11获取待处理的多个标记语言文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110249348.0/2.html,转载请声明来源钻瓜专利网。