[发明专利]基于位置标记的网页信息抽取方法和装置有效
申请号: | 201310385373.0 | 申请日: | 2013-08-29 |
公开(公告)号: | CN103473285B | 公开(公告)日: | 2017-04-12 |
发明(设计)人: | 徐锐波;付赟 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京智汇东方知识产权代理事务所(普通合伙)11391 | 代理人: | 康正德,郭海彬 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 位置 标记 网页 信息 抽取 方法 装置 | ||
技术领域
本发明涉及互联网领域,具体而言,涉及一种基于位置标记的网页信息抽取方法和装置。
背景技术
网页信息抽取是指从网页文本中抽取出目标信息并将其形成结构化数据的过程。
由于网页在某种程度上具有一定的结构,因此网页信息抽取不同于对普通文本的抽取。这种结构化的形式带来了一定的缺点。在网页中,数据通常会被标签所分割,一个完整的句子中往往穿插着对句子本身不起任何作用的标签,从而无法表达句子原始的意义,这就使得传统的基于自然语言处理的文本信息抽取技术无法直接移植到网页信息抽取领域。
现有的网页信息抽取技术,主要依靠人工编写抽取规则进行,即通过对网页及其源码的分析,由编程人员找出一些规则,再根据这些规则编写程序抽取目标数据。人工规则提取方法存在着以下缺点:
1、需要抓取大批量的站点时,对每个站点编写抽取规则工作量大,而且操作人员的编程工作受到主观因素影响,存在一定错误率;
2、在出现网页改版时,网页的页面结构有可能出现变化,造成此前编写的规则失效,需要重复编写规则的工作,严重影响了效率。
针对目前人工编写规则进行网页信息提取工作量大、效率低的问题,现有技术中尚未提出有效的解决方案。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的网页信息抽取装置和相应的网页信息抽取方法。
依据本发明的一个方面,提供了基于位置标记的网页信息抽取方法。该基于位置标记的网页信息抽取方法,包括以下步骤:获取训练页面,训练页面中标注了至少一个属性,被标注属性的内容与网页中需要抽取的文本内容对应;获取训练页面中多个属性的前缀标签,前缀标签包括当前属性与前一属性之间的所有标签,多个属性包括被标注属性;在被标注属性的前缀标签中选取被标注属性的起始标记;在被标注属性之后的标签中选取结束标记;在需要抽取的网页中查询起始标记和结束标记,并抽取起始标记和结束标记之间的属性内容,以得到属性内容中包含的信息。
进一步地,起始标记为被标注属性的前缀标签中的标签或者标签组合,标签或者标签组合满足以下条件:在多个属性的前缀标签中,标签或者标签组合仅出现在被标注属性的前缀标签中。
可选地,在被标注属性的前缀标签中选取被标注属性的起始标记包括:将被标注属性之前相邻的标签记为备选标记;判断备选标记是否在多个属性的前缀标签中唯一,如果是,将备选标记作为起始标记,如果否,将与备选标记之前相邻的标签与备选标记进行组合,组合结果记为新的备选标记,直至挑选出起始标记或者被标注属性的前缀标签中的标签组合均不唯一。
进一步地,在将被标注属性之前相邻的标签记为备选标记之前还包括:将被标注属性的前缀标签按照与被标注属性的邻近关系距离进行排序,其中被标注属性之前相邻的标签记为排序第一的标签。
可选地,获取训练页面的步骤包括:获取需要抽取的文本内容,并将需要抽取的文本内容作为目标属性值;从目标网站中选取网页作为训练页面;在训练页面中查询与目标属性值相同或相近的属性,并将相同或相近的属性作为被标注属性。
进一步地,在训练页面中查询与目标属性值相同或相近的属性包括:在训练页面中判断是否存在属性值与目标属性值相同的属性,如果是,将该与目标属性值相同的属性作为被标注属性;如果否,将目标属性值进行切分,根据训练页面中文本行与切分后的属性值的相似度得出与目标属性值相近的属性。
可选地,将目标属性进行切分的步骤包括:去除训练页面中所有的标签,得到网页中文本行组成的数组;计算数组中文本行的平均长度;将目标属性值按照平均长度进行切分。
可选地,根据训练页面中文本行与切分后的属性值的相似度得出与目标属性值相近的属性包括:分别计算训练页面中各文本行与切分后的属性值的相似度;选择出相似度最高的一个或多个文本行;分别判断一个或多个文本行的相似度是否大于预设阈值,并且将一个或多个文本行与各自相邻的文本行进行结合,判断结合后的文本对切分后的属性值的相似度是否增大;选择以上判断结果均为是的文本行作为与目标属性值相近的属性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310385373.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:跨媒体稀疏哈希索引方法
- 下一篇:产品说明的查询方法、装置、系统及客户端