[发明专利]提取动态生成网页内容的技术方案无效
申请号: | 200810094188.5 | 申请日: | 2008-05-08 |
公开(公告)号: | CN101576885A | 公开(公告)日: | 2009-11-11 |
发明(设计)人: | 韩露 | 申请(专利权)人: | 韩露 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100023北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 提取 动态 生成 网页 内容 技术 方案 | ||
1.一种对动态生成网页中特定动态内容进行精确提取的方法,其特征是:对于 网页数据内给定的一个查找区域,将两个定位指针通过查找操作定位在区域 内,截取两个定位指针之间的子区域作为结果区域,将结果区域作为内容查 找和提取的目标数据;或者,多次应用此过程,将前一轮查找得到的结果区 域,作为后一轮查找的查找区域,直到指定的查找轮次,其结果区域为内容 查找和提取的目标数据;定位指针在查找区域内定位的方法是使用标志正则 表达式,从指定的位置开始按照指定的方向进行顺序匹配;第一个定位指针 的开始查找位置为查找区域的起始位置或结束位置,第二个定位指针的开始 查找位置为查找区域的起始位置或结束位置,或以第一定位指针的定位位置 或与该定位位置相距指定字节数的相对位置作为查找起始点;查找的方向定 制为向前或向后;针对每个定位指针,有一个预定的匹配次数,当未达到 预先指定的匹配次数时,前述查找将继续向原方向进行,直到达到预定的匹 配次数为止,即为该指针的定位位置。
2.根据权利要求1所述的对动态生成网页中特定动态内容进行精确提取的方 法,若定位指针查找所采用的标志正则表达式内不包含任何通配符号,则其 为一特定字符串,此种情况下的正则表达式匹配操作等同于字符串精确查找。
3.根据权利要求1所述的对动态生成网页中特定动态内容进行精确提取的方 法,当预知某查找轮次的目标数据的起始边界与原查找区域的起始边界相同, 或该查找轮次的目标数据的终止边界与原查找区域的终止边界相同时,可视 该边界即为第二个定位指针的定位位置,在此种情况下省略该轮次第二定位 指针的实际查找操作。
4.根据权利要求1所述的对动态生成网页中特定动态内容进行精确提取的方 法,作为对动态网页内容进行更复杂的组合提取的中间步骤,前提是该中间 步骤的输入数据为单一的连续查找区域,输出数据为单一的连续目标区域。
5.根据权利要求1所述的对动态生成网页中特定动态内容进行精确提取的方 法,其特征是:查找的轮次顺序信息、各轮查找所涉及的定位指针要素信息, 统称内容提取要素信息;当本方法为软件所实现时,这些要素存放于配置文 件中由该软件在运行时读取并实施其所描述的内容提取操作,或将这些要素 信息以程序代码的形式编写在该软件的源代码中而实现其内容提取操作。
6.根据权利要求5所述的对动态生成网页中特定动态内容进行精确提取的方 法,其特征是:内容提取要素信息是通过对目标动态网页的模版的预先分析 而获得,在相关模版数据不可得的情况下,通过观察其产生的动态网页数据 而了解其大致的模版信息,并分析获得内容提取要素信息。
7.根据权利要求5所述的对动态生成网页中特定动态内容进行精确提取的方 法,还包括:在对源网页数据进行内容提取时,利用网页访问相关的附加信 息或网页数据内某些特征数据,以预先约定的方式找到与之对应的内容提取 要素信息,并用这些信息所指定的方式对该网页数据进行提取;对于不同来 源的网页数据,可能会找到并应用不同的内容提取要素信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于韩露,未经韩露许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810094188.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:燃气热水器多机通信系统
- 下一篇:一种液晶显示装置