[发明专利]基于可扩展语言查询的网页数据抽取方法无效
| 申请号: | 201010545520.2 | 申请日: | 2010-11-16 |
| 公开(公告)号: | CN101984434A | 公开(公告)日: | 2011-03-09 |
| 发明(设计)人: | 聂铁铮;于戈;王波涛;岳德君 | 申请(专利权)人: | 东北大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 沈阳东大专利代理有限公司 21109 | 代理人: | 梁焱 |
| 地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 扩展 语言 查询 网页 数据 抽取 方法 | ||
1.一种基于可扩展语言查询的网页数据抽取方法,其特征在于:包括以下步骤:
步骤1:确定Web页面中抽取数据内容时所对应的模式结构;
步骤2:定位Web页面中数据区域、数据单元和属性文本;
步骤3:对步骤2中的属性文本进行语义标注;
步骤4:生成数据单元节点路径:
步骤5:计算抽取属性值的路径表达式;
步骤6:生成数据抽取的XML查询语句;
步骤7:利用XML查询语句抽取数据。
2.根据权利要求1所述的基于可扩展语言查询的网页数据抽取方法,其特征在于:步骤1所述的模式结构包括:关系形式的表结构和层次结构两种,其中,表结构的数据模式S由数据实体名E和一组属性集合A={A1,…,An}所构成,其中Ai(1<=i<=n,n表示属性的数量)表示属性集合中的一个属性,由属性名称和属性的数据类型构成,表示为<N, T>,其中N表示属性名称,T表示属性数据类型,所述数据类型T包括整数类型integer、浮点类型float和字符串类型string;所述的层次结构是指由基本类型组成的复杂数据结构,其对应的数据模式表示为 ,包含属性,m为模式中属性的数量。
3.根据权利要求1所述的基于可扩展语言查询的网页数据抽取方法,其特征在于:步骤4所述生成数据单元节点路径包括以下步骤:
步骤4-1:将步骤2得到的数据单元集合表示为:U={U1,U2,…,Un},其中,Ui表示一个数据单元,其中i=1,…,n;
步骤4-2:根据确定的数据单元Ui,确定其在页面XML文档中所对应得元素节点,该节点表示为Ni,再根据XML文档的结构为元素节点Ni生成从根节点到该节点的路径值,表示为Pi;
步骤4-3:计算数据单元的路径表达式,方法为:
取一个数据单元节点的路径,在路径值Pi中,使用位置谓词定位路径表达式中的每一个步,即由文档根节点到数据单元对应的元素节点所经过的每一个节点,取路径表达式中的每个节点标签,所有数据单元的路径具有相同的标签序列,则从根节点开始的标签序列表示为T,其中包括m个标签分别表示为(T1,T2,…,Tm),其中标签T1为根节点的标签,其余标签依次类推,每个节点的标签在其同标签兄弟节点中的位置序列表示为(pi1,…,pim),其中位置pi1为根节点标签的位置,其余标签依次类推,则路径值表示为:
路径值Pi=/标签1 [位置i1]/ 标签2[位置i2]/……/标签m[位置im],
即Pi=/T1[pi1]/ T2[pi2]/....../ Tm[pim]/
步骤4-4:对数据单元的路径集合,计算从根节点开始的最长公共路径LCP:
所述最长公共路径是指所有数据单元节点的路径共有的节点构成的路径,计算最长公共路径LCP的方法为:对于数据单元节点的路径,从根节点开始的第一个标签位置开始匹配,如果所有数据单元节点路径在当前标签下的位置值相同,即p1i=p2i=...=pni,则把当前标签和位置值顺序添加到最长公共路径中,即LCP+=/Ti[pi],如果所有数据单元节点路径在当前标签下的位置值存在不同值,则停止匹配,将当前最长公共路径值作为最终的最长公共路径值;
步骤4-5:化简步骤4-4计算得到的最长公共路径LCP;
对于最长公共路径中的一个步所对应的节点,表示为ni,对应的标签为Ti,如果其兄弟节点中不存在与其标签相同,且具有相同后继路径为“/标签i+1/....../标签m”的子孙节点的非数据单元节点,则该节点的位置值在最长公共路径的表达式中可以省略;
步骤4-6:采用生成谓词的方法计算局部路径,所述的局部路径是指每个节点私有的节点构成的路径:
生成谓词的方法为:假设当前步的节点的标签为Ti,看当前步中节点集合的所有兄弟节点中,是否包含与其标签相同且具有相同后继路径为“/标签i+1/....../标签m”的子孙节点的非数据单元节点,若没有则省略谓词,若有则再查看当前节点中是否有非数据单元节点的XML属性,能够将当前节点与符合上面条件的非数据单元节点区分,如果有这样的XML属性则将该属性作为谓词表达式,若没有则进一步计算谓词中位置值的范围,把这些符合条件的非数据单元节点称为噪音节点;
所述计算谓词中位置值的范围的方法如下:
如果噪音节点只出现在数据单元节点集合之前,则对于该标签表示数据单元节点的谓词中位置的范围为:从所有数据单元节点的标签i所对应的节点位置中最小的位置值到最后一个具有该标签的节点;
如果噪音节点只出现在数据单元节点集合之后,则对于该标签表示数据单元节点的谓词中位置的范围为:从第一个到所有数据单元节点的标签i所对应的节点位置中最大的位置值;
如果数据节点被噪音节点有规律地分割,计算数据单元节点被噪音节点分割的间隔 pinte,计算数据单元节点连续出现的长度pcont,并计算所有数据单元节点的标签i所对应的节点位置中最小的位置值和最大的位置值,表示为pmin和pmax,则符合下面位置条件的节点被认为是数据单元路径上的节点:(1)节点位置值减去pmin后,对pinte取模后的余数小于pcont值;(2)节点位置值小于最大噪音节点位置值减去pmax再加1后的值;
步骤4-7:合并最长公共路径和局部路径;
将最长公共路径和局部路径合并,得到在Web页面的XML文档中定位数据单元的路径Pu。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010545520.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:带水平调节装置的模具安装座
- 下一篇:一种透明和增韧的聚乳酸树脂及其制备方法





