首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]网络搜索中基于多种规则的元数据自动抽取方法有效

申请号：	200710118590.8	申请日：	2007-07-10
公开（公告）号：	CN101101600A	公开（公告）日：	2008-01-09
发明（设计）人：	张铭;杨宇	申请（专利权）人：	北京大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京君尚知识产权代理事务所	代理人：	余功勋
地址：	100871***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网络搜索基于多种规则数据自动抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.网络搜索中基于多种规则的元数据自动抽取方法，其特征在于，包括以下步骤：

(1)对粗糙网页进行预处理，将所有网页归一为比较规范的格式；

(2)对网页文档中包括所要提取的信息的网页内容进行预定位；

(3)按照指定的规则从预定位提取出的内容中提取元数据。

2.如权利要求1所述的元数据自动抽取方法，其特征在于，所述步骤(1)中的预处理是将网页由HTML文档转换成XML文档。

3.如权利要求1所述的元数据自动抽取方法，其特征在于，所述步骤(2)中进行初步定位是识别、选择、匹配XML文档中的构成元件。

4.如权利要求1所述的元数据自动抽取方法，其特征在于，所述步骤(2)中，针对同一类网页，设定不同预定位路径，并设定每种路径优先级，按照优先级辨别出该网页符合哪种预定位路径，并采用辨别出的预定位路径提取出核心内容区域。

5.如权利要求1所述的元数据自动抽取方法，其特征在于，所述步骤(3)中针对同一类网页，设定一系列不同规则，并设定每种规则的优先级，根据不同优先级匹配各个规则进行信息提取。

6.如权利要求1所述的元数据自动抽取方法，其特征在于，所述步骤(3)所述的规则采用java.regex提供的正则表达式工具包进行描述。

7.如权利要求1所述的元数据自动抽取方法，其特征在于，在所述步骤(3)的信息提取过程中，还按照如下方法进行信息精化：

(1)采用二元组<word，feature>的形式表示多余词语，word是多余词语本身的记录，feature是依据规定好的分类方法对词语的类型判断和标记；

(2)如果某个单词或某种单词类型在一个特定位置作为杂质出现的概率大于一个特定阈值，则将单词或单词类型以及出现位置记录下来；

(3)提取过程中，如果在固定匹配位置出现了杂质单词，即匹配<word，feature>中的第一项相同，则直接将其过滤掉；若出现了与杂质单词不相同，但与杂质类型相同的单词，则也将其判断为杂质并过滤掉。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京大学，未经北京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200710118590.8/1.html，转载请声明来源钻瓜专利网。

上一篇：一种结核分枝杆菌重组融合蛋白及其应用
下一篇：一种多处理器架构的航标遥测监控终端系统

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top