[发明专利]基于路径摘要的链接信息提取方法在审
| 申请号: | 201710536054.3 | 申请日: | 2017-07-04 |
| 公开(公告)号: | CN107463617A | 公开(公告)日: | 2017-12-12 |
| 发明(设计)人: | 吴双;竹翠 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京思海天达知识产权代理有限公司11203 | 代理人: | 刘萍 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 路径 摘要 链接 信息 提取 方法 | ||
技术领域
本发明属于计算机软件领域,涉及一种基于路径摘要的链接信息提取方法。
背景技术
Web信息提取系统是一类以从Web源文件中提取数据为目的的软件应用。Web信息提取系统通常与Web源文件进行交互,提取存储在文件中的数据,例如:若源文件是HTML页面,则提取的内容可以是由页面中的元素组成也可以是页面自身的全部文本。最终,数据的提取往往通过后处理来完成,数据被转换成最方便使用的结构化格式,并存储以便进行进一步的使用。
链接信息页面的提取是Web信息提取的一类重要的应用场景。所谓链接信息指的就是(标题,链接)二元组,而链接信息页面则指的是用来集中展示同类链接信息的页面。链接信息页面在互联网上极为常见,但凡需要涉及到大量信息发布的网站,例如新闻网站、网络社区、电影信息网站、垂直信息发布网站等,都会用链接信息页面对信息详情页进行目录索引。人们对于这类网站信息的收集需求一直以来都广泛存在,而链接信息页面的提取技术则是解决这一需求的关键。传统的基于正则表达式的链接提取方法,需要有专业知识的工作人员参与,且提取过程效率低下,成为生产力的瓶颈。
本文将链接信息提取问题,抽象成了同质信息的提取问题。并这对这一类问题给出了一种全新的解决框架,即基于路径摘要的同质信息提取方法。基于这一解决框架,我们能够同时实现人工提取与机器提取,为解决同类问题提供了一种思路。并在链接信息提取这一具体场景下,基于这一框架设计并实现了基于路径摘要的链接信息提取方法。利用该框架,一方面实现了高效的人工提取器,这一提取器将复杂的提取流程抽象成了一次鼠标点击的操作,具有极低的学习成本和极高的操作效率。另一方面实现了全自动的机器提取功能,该功能具有良好的准确率,能够进一步提升信息提取这一环节的生产效率。通过两方面的结合,该系统实现了准确度与自动化程度的平衡。
发明内容
本发明提出的链接提取方法的基本思想是根据结构样式在页面上定位一组信息。本方法基于一种常见页面设计习惯产生的一种页面性质:
性质1:在同一个Web页面上,相同意义的信息具有相同的结构样式,不同意义的信息具有不同的结构样式。
并借助路径摘要这一数据结构:
定义1:路径摘要是一个树形结构,它包含了一个XML文档中所有不同的路径。若pD为文档D的路径摘要,则需要满足以下条件:
(1)令l为路径摘要的节点n的节点名,则这个节点名是文档D中的一个元素的名,或是以该元素的class属性的值作为后缀的元素名。在后面这种情况中,class属性的一个或多个不同的值按照字典序排列,并以点符号分隔。
(2)令np是pD的一个节点,而由pD的根节点到np的路径上的节点名序列为l1,l2,…,ln。则在文档D中至少存在一个元素节点nD,使得从文档D的根节点到nD的路径具有相同的节点名序列l1,l2,…,ln。
令nD为文档中的一个元素,而l1,l2,…,ln为D的根节点到nD的路径的节点名序列。则在pD中有且仅有一个节点np,使得从pD的根节点到np的路径具有相同的节点名序列l1,l2,…,ln。
该数据结构可以将性质1引申为:
性质2:在同一个Web页面上,相同意义的信息具有相同路径节点名序列,不同意义的信息具有不同的路径节点名序列。
基于性质2,我们提出了一种提取页面上具有相同意义信息(同质信息)的通用框架:
PSTreeBuilder(SourceFile)→PSTree
GetNodeBySequence(PNNameSequence,PSTree)→TargetN
ExtractFromElement(TargetNode)→StructureData
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710536054.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种企业信息分析方法及系统
- 下一篇:一种索引创建方法和装置





