[发明专利]网络搜索中基于多种规则的元数据自动抽取方法有效
| 申请号: | 200710118590.8 | 申请日: | 2007-07-10 |
| 公开(公告)号: | CN101101600A | 公开(公告)日: | 2008-01-09 |
| 发明(设计)人: | 张铭;杨宇 | 申请(专利权)人: | 北京大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京君尚知识产权代理事务所 | 代理人: | 余功勋 |
| 地址: | 100871*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 网络 搜索 基于 多种 规则 数据 自动 抽取 方法 | ||
1.网络搜索中基于多种规则的元数据自动抽取方法,其特征在于,包括以下步骤:
(1)对粗糙网页进行预处理,将所有网页归一为比较规范的格式;
(2)对网页文档中包括所要提取的信息的网页内容进行预定位;
(3)按照指定的规则从预定位提取出的内容中提取元数据。
2.如权利要求1所述的元数据自动抽取方法,其特征在于,所述步骤(1)中的预处理是将网页由HTML文档转换成XML文档。
3.如权利要求1所述的元数据自动抽取方法,其特征在于,所述步骤(2)中进行初步定位是识别、选择、匹配XML文档中的构成元件。
4.如权利要求1所述的元数据自动抽取方法,其特征在于,所述步骤(2)中,针对同一类网页,设定不同预定位路径,并设定每种路径优先级,按照优先级辨别出该网页符合哪种预定位路径,并采用辨别出的预定位路径提取出核心内容区域。
5.如权利要求1所述的元数据自动抽取方法,其特征在于,所述步骤(3)中针对同一类网页,设定一系列不同规则,并设定每种规则的优先级,根据不同优先级匹配各个规则进行信息提取。
6.如权利要求1所述的元数据自动抽取方法,其特征在于,所述步骤(3)所述的规则采用java.regex提供的正则表达式工具包进行描述。
7.如权利要求1所述的元数据自动抽取方法,其特征在于,在所述步骤(3)的信息提取过程中,还按照如下方法进行信息精化:
(1)采用二元组<word,feature>的形式表示多余词语,word是多余词语本身的记录,feature是依据规定好的分类方法对词语的类型判断和标记;
(2)如果某个单词或某种单词类型在一个特定位置作为杂质出现的概率大于一个特定阈值,则将单词或单词类型以及出现位置记录下来;
(3)提取过程中,如果在固定匹配位置出现了杂质单词,即匹配<word,feature>中的第一项相同,则直接将其过滤掉;若出现了与杂质单词不相同,但与杂质类型相同的单词,则也将其判断为杂质并过滤掉。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710118590.8/1.html,转载请声明来源钻瓜专利网。





