[发明专利]网站的页面主体的确定方法及装置在审
| 申请号: | 201810737697.9 | 申请日: | 2018-07-06 |
| 公开(公告)号: | CN108897883A | 公开(公告)日: | 2018-11-27 |
| 发明(设计)人: | 郑权;张峰;聂颖 | 申请(专利权)人: | 龙马智芯(珠海横琴)科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 赵囡囡;董文倩 |
| 地址: | 519000 广东省珠*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 页面 标签内容 集合 获取目标 目标标签 网页文本 网站 目标页面 预定条件 目标页 | ||
本发明公开了一种网站的页面主体的确定方法及装置。其中,该方法包括:获取目标页面,其中,目标页面为待进行页面主体提取的页面;获取目标页面中满足预定条件的目标标签;确定目标标签的标签内容,得到标签内容集合;获取标签内容集合中每个标签内容的属性值,得到属性值集合;根据属性值集合中的属性值确定目标页面的页面主体。本发明解决了相关技术中提取网页文本的方式由于操作繁琐导致的网页文本提取的效率较低的技术问题。
技术领域
本发明涉及计算机网络技术领域,具体而言,涉及一种网站的页面主体的确定方法及装置。
背景技术
现有技术中提供的用于提取网页文本内容的方案中,网页在浏览器中加载完毕后,将网页中的内容进行拆分,然后由浏览器中的匹配规则文件对网页内容进行定位,抽取出所需的字段内容并显示出来,从而用户可以看到文本筛选后的网页,使用户能够方便和专注的阅读。
然而,由于现有方案针对某一预定网页结构设置一个匹配规则文件,该匹配规则文件仅适用于预定结构下网页文本内容的提取,但是由于网络资源的更新速度非常快,网页结构会时常变动,已有的匹配规则文件将无法对变动后的网页进行文本提取,而重新生成新的匹配规则文件,再将新的匹配规则文件设置在浏览器中,又导致实现匹配的操作过于繁琐,工作量较大、效率低下。
针对上述相关技术中提取网页文本的方式由于操作繁琐导致的网页文本提取的效率较低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种网站的页面主体的确定方法及装置,以至少解决相关技术中提取网页文本的方式由于操作繁琐导致的网页文本提取的效率较低的技术问题。
根据本发明实施例的一个方面,提供了一种网站的页面主体的确定方法,包括:获取目标页面,其中,所述目标页面为待进行页面主体提取的页面;获取所述目标页面中满足预定条件的目标标签;确定所述目标标签的标签内容,得到标签内容集合;获取所述标签内容集合中每个标签内容的属性值,得到属性值集合;根据所述属性值集合中的属性值确定所述目标页面的页面主体。
可选地,获取所述标签内容集合中每个标签内容的属性值包括:确定所述每个标签内容的预定字符数量和预定字符占比;根据所述每个标签内容的预定字符数量和所述预定字符占比确定所述每个标签内容的属性值。
可选地,根据所述每个标签内容的预定字符数量和所述预定字符占比确定所述每个标签内容的属性值包括:对所述每个标签内容的预定字符数量和预定字符占比进行归一化;根据归一化后的预定字符数量和预定字符占比确定所述每个标签内容的属性值。
可选地,对所述每个标签内容的预定字符数量和预定字符占比进行归一化包括:通过第一公式对所述每个标签内容的预定字符占比进行归一化,其中,所述第一公式为:Norinta(i)=(inta(i)-intaMu)/stdinta,其中,Norinta(i)表示归一化后的第i个目标标签的标签内容的预定字符占比,inta(i)表示归一化前的第i个目标标签的标签内容的预定字符占比,intaMu表示i个目标标签的标签内容的预定字符占比的均值,stdinta表示i个目标标签的标签内容的预定字符占比的方差,i为目标标签的数量,i为正整数;通过第二公式对所述每个标签内容的预定字符数量进行归一化,其中,所述第二公式为:NorCN(i)=(CN(i)-CNMu)/stdCN,其中,NorCN(i)表示归一化后的第i个目标标签的标签内容的预定字符数量,CN(i)表示归一化前的第i个目标标签的标签内容的预定字符数量,CNMu表示i个目标标签的标签内容的预定字符数量的均值,stdCN表示i个目标标签的标签内容的预定字符数量的方差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于龙马智芯(珠海横琴)科技有限公司,未经龙马智芯(珠海横琴)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810737697.9/2.html,转载请声明来源钻瓜专利网。





