[发明专利]构建标注网页语料库的方法及装置有效

专利信息
申请号: 201110172092.8 申请日: 2011-06-16
公开(公告)号: CN102831131A 公开(公告)日: 2012-12-19
发明(设计)人: 付雷;夏迎炬;孟遥;于浩 申请(专利权)人: 富士通株式会社
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 杨林森;陈炜
地址: 日本神*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 构建 标注 网页 语料库 方法 装置
【说明书】:

技术领域

发明一般地涉及互联网数据处理技术领域,尤其是一种构建标注网页语料库的方法及装置。

背景技术

互联网的数据资源极大丰富,为各种数据密集型的应用提供了潜在的数据来源,但互联网上的网页结构复杂,网页的主体内容往往被淹没在广告或导航等噪音信息之中,为此要利用互联网这个庞大的数据源为研究服务,就需要能够将网页中的各类信息分离归类,也就是对网页的内容进行标注。

带有精细化标注信息的网页语料对于很多应用都有着至关重要的影响,例如网页检索、网页分类或网页内容提取等,所说的精细化标注是指对于出现在网页中的文本细致的将其区分为标题、作者、时间、正文、评论、广告、相关链接和其他等八类的标注方式,这种标注后的语料既可以当作训练语料为内容提取或聚类分类等应用服务,也可以作为检索等应用的预处理阶段,从而提高检索精度。

传统的构建标注网页语料库的方法,一般人工直接进行网页标注,即是由特定的技术人员来对某个网页的全部内容进行审阅,从而根据审阅结果对网页的各部分内容进行标注。

但是这种采用人工进行网页标注的方式,因为互联网上的网页数量是无限的,就需要技术人员付出巨大的精力来进行网页标注;进一步的,不同网页的某些部分内容有时也存在相似的情况,所以这就使得技术人员对相同的网页内容进行重复性标注,浪费人力资源的同时,也使语料规模很难做大。

发明内容

有鉴于此,本发明实施例提供了一种构建标注网页语料库的方法及装置,能够在给定的少量种子标注语料的情况下,不断地循环扩大标注语料的规模,形成大规模的标准标注语料。

根据本发明实施例的一个方面,提供一种构建标注网页语料库的方法,包括:针对预先选取的初始种子网页生成初始种子标注网页语料,所述初始种子网页为不同类型的网页组成的集合,所述初始种子标注网页语料为标注出正文和标题的种子网页;按照所述初始种子标注网页语料的关键词从搜索引擎中获取预设个数的相关种子网页;按照所述初始种子网页标注语料对所述相关种子网页进行标注,得到相关种子标注网页语料;以及判断所述相关种子标注网页语料和所述初始种子标注网页语料是否满足预设条件,如果是,则将所述相关种子标注网页语料和所述初始种子标注网页语料组合为标注网页语料库;如果否,则将所述相关种子标注网页语料作为初始种子标注网页语料,并执行所述从搜索引擎中获取预设个数的相关种子网页的步骤。

根据本发明实施例的另一个方面,提供一种构建标注网页语料库的装置,包括:生成模块,用于针对预先选取的初始种子网页生成初始种子标注网页语料,所述初始种子网页为不同类型的网页组成的集合,所述初始种子标注网页语料为标注出正文和标题的种子网页;获取模块,用于按照所述初始种子标注网页语料的关键词从搜索引擎中获取预设个数的相关种子网页;标注模块,用于按照所述初始种子网页标注语料对所述相关种子网页进行标注,得到相关种子标注网页语料;判断模块,用于判断所述相关种子标注网页语料和所述初始种子标注网页语料是否满足预设条件;组合模块,用于当所述判断模块的结果为是时,将所述相关种子标注网页语料和所述初始种子标注网页语料组合为标注网页语料库;以及触发模块,用于当所述判断模块的结果为否时,将所述相关种子标注网页语料作为初始种子标注网页语料,并触发所述获取模块。

另外,根据本发明的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本发明的上述构建标注网页语料库的方法。

此外,根据本发明的再一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本发明的上述构建标注网页语料库的方法。

根据本发明实施例的上述一种方法,可以在给定的少量种子标注语料的情况下,不断地循环扩大标注语料的规模,形成大规模的标准标注语料,这种构建标注网页语料库的方法无需人工对相同的网页内容进行重复性标注,节省了人力资源和物理成本的同时,也使标注网页语料库可以实现更大的规模。

在下面的说明书部分中给出本发明实施例的其他方面,其中,详细说明用于充分地公开本发明实施例的优选实施例,而不对其施加限定。

附图说明

下面结合具体的实施例,并参照附图,对本发明实施例的上述和其他目的和优点做进一步的描述。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。

图1是示出作为本发明实施例提供的方法实施例1的流程图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110172092.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top