[发明专利]一种基于配置信息匹配及相似度提取网页信息的方法在审
申请号: | 201711346436.6 | 申请日: | 2017-12-15 |
公开(公告)号: | CN108052619A | 公开(公告)日: | 2018-05-18 |
发明(设计)人: | 尚保林;王明兴;徐晓松 | 申请(专利权)人: | 北京海致星图科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100083 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 配置 信息 匹配 相似 提取 网页 方法 | ||
本发明公开了一种基于配置信息匹配及相似度提取网页信息的方法,提出了基于配置信息文本匹配及相似度计算实现的未知网页表格信息提取方法,利用新颖技术手段实现对未知网页表格细粒度的解析,通过自定义配置文件,获取用户想要的信息以及屏蔽不想要的信息,通过任意配置的外部文件,实现通用表格解析;提取网页中的最小表格,通过利用现今自然语言处理领域的文本间匹配以及相似度计算方式,抽取目标信息、弃丢无效信息,直接通过文本计算的方式实现信息获取,优于传统技术只能处理标准表格的方案,实现了对多种特殊表格的处理。
技术领域
本发明涉及查询方法技术领域,尤其涉及一种基于配置信息匹配及相似度提取网页信息的方法。
背景技术
知识图谱与图数据挖掘中经常需要挖掘满足给定结构的所有子图,这个问题通常称之为子图同构、子图匹配或子图查询。当前的子图匹配算法多是基于单机的,效率比较低,不能使用多台机器并行处理,能力有限,难以处理大规模数据。
发明内容
本发明的目的就在于为了解决上述问题而提供一种基于配置信息匹配及相似度提取网页信息的方法。
本发明通过以下技术方案来实现上述目的:
本发明包括以下步骤:
S1:用户自定义与表格解析过程相关的配置文件;
S2:顺序读取未知网页URL,查询数据库中是否已存在相关配置文件以及网页URL,若存在,直接读取数据;若不存在,存储其网页源码,利用JAVA中的Jsoup包将源码解析为Document对象;
S3:从根节点处深度递归遍历所有含table标签的表格,寻找所有非重复最小表格;
S4:遍历表格的第一行、第一列字段分别保存,获取配置文件中用户给出的字段列表,通过投票机制确定该表格属性为横向或者纵向。得到所有表格属性并保存;
S5:将每个最小表格作为处理单位,将标签table作为根节点root;
S6:若该表格为纵向表格,获取root第一个非空子节点的标签rowspan值,此值为表头所占行数,根据表头所占行数,获取所有表头字段propertyStr;
S7:遍历表头节点的所有非空兄弟节点
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京海致星图科技有限公司,未经北京海致星图科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711346436.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种复合陶瓷电容材料
- 下一篇:一种电动窗帘
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置