[发明专利]一种基于配置信息匹配及相似度提取网页信息的方法在审
申请号: | 201711346436.6 | 申请日: | 2017-12-15 |
公开(公告)号: | CN108052619A | 公开(公告)日: | 2018-05-18 |
发明(设计)人: | 尚保林;王明兴;徐晓松 | 申请(专利权)人: | 北京海致星图科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100083 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 配置 信息 匹配 相似 提取 网页 方法 | ||
1.一种基于配置信息匹配及相似度提取网页信息的方法,其特征在于:包括以下步骤:
S1:用户自定义与表格解析过程相关的配置文件;
S2:顺序读取未知网页URL,查询数据库中是否已存在相关配置文件以及网页URL,若存在,直接读取数据;若不存在,存储其网页源码,利用JAVA中的Jsoup包将源码解析为Document对象;
S3:从根节点处深度递归遍历所有含table标签的表格,寻找所有非重复最小表格;
S4:遍历表格的第一行、第一列字段分别保存,获取配置文件中用户给出的字段列表,通过投票机制确定该表格属性为横向或者纵向;得到所有表格属性并保存;
S5:将每个最小表格作为处理单位,将标签table作为根节点root;
S6:若该表格为纵向表格,获取root第一个非空子节点的标签rowspan值,此值为表头所占行数,根据表头所占行数,获取所有表头字段propertyStr;
S7:遍历表头节点的所有非空兄弟节点
S8:以表头节点的兄弟节点
S9:若所有
S10:若
S11:若该表格为横向表格,取出root第一个非空子节点,遍历该节点的所有子节点,取出其字段值保存,记为第一类字段;遍历root的所有子节点,取出这些节点的第一个子节点,取出字段值保存,记为第二类字段;获取配置文件中用户给出的字段列表,计算出字段列表与上述两类字段的文本相似度,分别记为权重
S12:若
S13:取出根节点root非空子节点trElement的标签rowspan值;
S14:若rowspan =1,遍历上述节点trElement的所有子节点,取出所有子节点的字段值记为strString,计算strString元素个数size;
S15:若size为偶数,从0开始到size-1遍历strString,偶数序号作为表头,奇数序号作为字段值,执行步骤S18、S19与S20;
S16:若size为奇数,从0开始到size-1遍历strString,0序号作为表头,后序字段拼接作为总字段值,执行步骤S18、S19与S20;
S17:若rowspan >1,取出根节点root下的rowsapan个子节点,将子节点的第一个非空子节点作为表头,后序字段拼接作为总字段值,执行步骤S18、S19与S20;
S18:遍历每一个表头字段与配置文件中用户给出的正面字段名/正面字段列表进行文本正则化匹配,若未匹配到,继续遍历下一个表头字段;若匹配到,将该表头字段与用户给出的负面字段名/负面字段列表进行文本正则化匹配,若匹配到,结束,继续遍历下一个表头字段,若未匹配到,记录被匹配字段列表所属的正面字段名,形成匹配到的表头字段与正面字段名一一对应的列表;
S19:找出与匹配到的表头字段对应的字段值,数量为n;
S20:设计数据结构R包含name和value属性,将R.name属性记为被匹配到的正面字段名,将R.value属性记为上述获取的字段值;产生n对数据结构R,保存到数据库;
S21:将数据库中获得的所有数据结构R取出,进行清洗、保存;
S22:读入下一个表格,返回步骤S3开始执行,当所有表格读取完毕,查询数据库中是否有对应的用户配置文件,URL以及获得的所有对数据结构R,若没有将其导入入数据库,方便快速查询;
S23:读取下一个URL,返回步骤S2开始执行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京海致星图科技有限公司,未经北京海致星图科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711346436.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种复合陶瓷电容材料
- 下一篇:一种电动窗帘
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置