[发明专利]基于可扩展语言查询的网页数据抽取方法无效

申请号：	201010545520.2	申请日：	2010-11-16
公开（公告）号：	CN101984434A	公开（公告）日：	2011-03-09
发明（设计）人：	聂铁铮;于戈;王波涛;岳德君	申请（专利权）人：	东北大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	沈阳东大专利代理有限公司 21109	代理人：	梁焱
地址：	110819 辽宁***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种基于可扩展语言查询的网页数据抽取方法，属于计算机数据库技术领域，包括以下：步骤确定Web页面中抽取数据内容时所对应的模式结构；定位Web页面中数据区域、数据单元和属性文本；对属性文本进行语义标注；生成数据单元节点路径：计算抽取属性值的路径表达式；生成数据抽取的XML查询语句；利用XML查询语句抽取数据，本发明能够生成精确的XML查询语句，保证XML查询语句的正确性，本发明具有较高的通用性，能够与已有无缝融合，本发明能够适应更加复杂的查询结果输出。
搜索关键词：	基于扩展语言查询网页数据抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于可扩展语言查询的网页数据抽取方法，其特征在于：包括以下步骤：步骤1：确定Web页面中抽取数据内容时所对应的模式结构；步骤2：定位Web页面中数据区域、数据单元和属性文本；步骤3：对步骤2中的属性文本进行语义标注；步骤4：生成数据单元节点路径：步骤5：计算抽取属性值的路径表达式；步骤6：生成数据抽取的XML查询语句；步骤7：利用XML查询语句抽取数据。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东北大学，未经东北大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201010545520.2/，转载请声明来源钻瓜专利网。

上一篇：带水平调节装置的模具安装座
下一篇：一种透明和增韧的聚乳酸树脂及其制备方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于可扩展语言查询的网页数据抽取方法无效

专利文献下载