[发明专利]网络搜索中基于多种规则的元数据自动抽取方法有效
| 申请号: | 200710118590.8 | 申请日: | 2007-07-10 |
| 公开(公告)号: | CN101101600A | 公开(公告)日: | 2008-01-09 |
| 发明(设计)人: | 张铭;杨宇 | 申请(专利权)人: | 北京大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京君尚知识产权代理事务所 | 代理人: | 余功勋 |
| 地址: | 100871*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 网络 搜索 基于 多种 规则 数据 自动 抽取 方法 | ||
技术领域:
本发明属于网络搜索技术领域,尤其涉及在互联网页上进行主题搜索的方法。
背景技术:
元数据是描述数据的数据(data that describes data)或“关于数据的数据”(data aboutdata),用于描述数据的特征和属性的,也是描述和组织Internet信息资源、发现Internet信息资源的工具。在每个领域,都会有一些大型的资源发布网站,通过抽取这些资源网站上的元数据,可以搜集到大量的有用资源,帮助不同用户建立特定领域的数据库,因此,对于元数据的抽取应用是非常广泛的。
元数据抽取在整个信息组织与检索中处于数据准备的基础地位。抽取过程的数据来源首先经过必要的预处理,剔除在格式、内容、语言等方面存在问题或严重缺失的文档,产生格式相对规整的文本文档;其次经过元数据抽取模块的处理,生成符合规范定义的文档元数据,并将结果存储在元数据、模式库或其他与具体系统相关的文件或文本数据库中。文档元数据也可依据具体系统的差异,采用不同的规范格式进行组织,以方便数据的共享与信息交流。而随着网络的进一步发展,网页元数据已经成为存储有用信息的最主要方法之一,因此在网页元数据抽取方面的科研工作也越来越广泛,越来越受到重视。
在元数据抽取领域,科研工作者已经进行了大量的理论研究,也提出了很多元数据抽取的技术和方法,并根据这些理论开发出了不少可用的工具。
在Web信息抽取领域有一种比较通用的分类方法,即根据每种工具采用的技术将Web元数据抽取的方法大致分为六类:(1)基于语言的元数据抽取方法;(2)基于HTML结构的元数据抽取方法;(3)基于NLP(Natural Language Processing)的元数据抽取方法;(4)基于归纳的元数据抽取方法;(5)基于模型的Web元数据抽取方法;(6)基于Ontology的元数据抽取方法。
其中基于NLP的元数据抽取方法是将NLP技术应用于从自然语言描述的文档中学习抽取规则。这类方法主要采用短语句法及语义分析技术,包括句法成分的识别与标记,关键词抽取,检索特征的抽取、索引等。基于NLP的元数据抽取方法比较适用于从结构松散甚至是纯文本中抽取有用信息。采用这类方法的典型工具是WHISK【SoderLan,S.Learning Information Extraction Rules for Semi-Structured and Free Text.Machine Learning 34,l-3(1999),2333-272.】。
WHISK是一个使用较为广泛的、针对半结构化信息进行规则自动学习的系统。与之前的系统相比,WHISK能够按照更精确的原则学习到需要的规则,因为它不仅能够针对某个领域的特定内容格式学习规则,还能够加入一些语义信息。WHISK中的规则是使用正则表达式表示,并且能够在一个规则中指定提取一个或多个信息域。但是这种自动学习规则的系统得到结果在真正用于提取时还是存在很多不足,原因在于针对一个完整的大容量的半结构化信息,WHISK中给出的规则只是尽量集中于待提取信息区域的,一条规则中既要完全剔除不需要的信息,又要准确定义提取需要的信息是很难做到的。另一方面,WHISK学习到的规则中给出的语义信息是通过将所有学习到的同义词语同时列出,以保证见到这一语义的不同词语都能够辨别出。但这点会使得最终得到的规则非常繁琐,且由于表达一种语义的词语层出不穷,最终的提取效果不会很好,这一点在中文提取中更为明显。
发明内容:
本发明的目的是提供一种按照指定规则自动抽取的元数据抽取方法。该方法能够按照多种规则对网页中的元数据进行抽取,多种规则根据给定的优先级判断匹配顺序,并按照两步抽取的方法进行精细化处理。
本发明的技术方案如下:
网络搜索中基于多种规则的元数据自动抽取方法,包括以下步骤:
1.对粗糙网页进行预处理,将所有网页归一为比较规范的格式
预处理可以使用开源工具包NekoHTML进行处理,这个工具是J.Andrew Clark用Java写的系列工具(Java APIs)中的一个。NekoHTML是一个简单的HTML扫描器和标签补偿器(tag balancer),使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。经过以上处理的网页就能够达到基本的要求,就是那些结构松散的HTML文档也已经被转化为符合基本XML文档规范的网页了。
2.信息预定位
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710118590.8/2.html,转载请声明来源钻瓜专利网。





