[发明专利]一种基于同义词发现的网页表格信息解析方法在审
申请号: | 202110251907.5 | 申请日: | 2021-03-08 |
公开(公告)号: | CN113128210A | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 魏嵬;刘维;邬凛;张贝贝;梁照阳;侯宇晴 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06F40/247 | 分类号: | G06F40/247;G06F40/242;G06F40/216;G06F16/35;G06F40/289;G06F16/31 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 弓长 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 同义词 发现 网页 表格 信息 解析 方法 | ||
本发明公开的一种基于同义词发现的网页表格信息解析方法,包括以下步骤:步骤1,网页原始数据预处理,得到预训练文本;步骤2,先分词预处理,随后进行关键词筛选,再次进行分词,生成基本知识库;步骤3,将基本知识库利用词向量技术,获得同义词词典;步骤4,解析待处理网页中的数据,根据网页表格标签代码样式,把网页中的表格数据转存到一个预先设置的二维数组列表里;步骤5,通过同义词词典对二维列表里的数据进行定位,完成解析过程。本发明网页表格信息解析方法,可实现对于用户所需数据的准确提取,由于进行了同义词发现过程,进一步增加了信息提取的准确性。
技术领域
本发明属于数据处理方法技术领域,具体涉及一种基于同义词发现的网页表格信息解析方法。
背景技术
随着计算机的诞生和普及,人与计算机的交互已经融入了日常生活中,人类已经步入信息时代。如今,计算机己然成为人们娱乐、生活、工作的重要工具,并帮助人们大幅度提高工作效率、完成人类自身不能完成的计算量等巨大任务。同时,互联网信息量随着网络的加速、网络节点的增加以及硬件性能的提高迎来指数爆发式增长,人工处理这些海量数据是一个不可能完成的任务,要从海量数据中筛选出有用信息,须依靠计算能力强大的计算机。
随着信息化的快速发展,网页数据无论是数量还是传播速度都呈现几何级的增长,网页数据处理技术的运用也越来越广泛,不管是日常生活还是工业生产,网页数据处理变得越来越重要。网页数据处理是用计算机对网页进行解析,以达到提取信息、整合信息的技术。现代社会网页数据中表格无处不在,对于网页中表格文本信息进行查找、搜索成了常态,但对于上百万网页的表格信息,人工查找起来过于繁琐,而且容易出现遗漏、出错,造成了不可预估的损失,现有的文本处理网页信息系统自动化程度低,且通用性不高,无法满足网页数据信息多样性和复杂性的要求,如何快速而且准确的将网页结构中所需的关键信息定位并且提取出来成了多个领域的热点问题。
针对网页文本信息的非结构化特征和无序性,一般只能采用全文检索的方式查找。但是网页中充斥着大量的无关信息,比如广告和无关链接以及其他内容,有用信息和无用信息混杂在一起,给网页信息的检索问题带来极大的困难。
发明内容
本发明的目的是提供一种基于同义词发现的网页表格信息解析方法,解决了现有网页文本信息检索效率低下的问题。
本发明所采用的技术方案是,一种基于同义词发现的网页表格信息解析方法,包括以下步骤:
步骤1,网页原始数据预处理,即去掉原始数据中无用代码符号和代码,得到预训练文本;
步骤2,对步骤1中的预训练文本进行分词预处理,随后进行关键词筛选,筛选结束后得到关键词词典;将关键词词典再次进行分词,生成词向量的基本知识库;
步骤3,将步骤2得到的基本知识库利用词向量技术,得到目标词的相近词出现的概率,获得同义词词典;
步骤4,解析待处理网页中的数据,根据网页表格标签代码样式,把网页中的表格数据转存到一个预先设置的二维数组列表里;
步骤5,通过步骤3的同义词词典对步骤4中的二维列表里的数据进行定位,然后根据特征信息的特点,进行信息提取和整合,完成解析过程。
本发明的特征还在于,
步骤1中的预训练文本为格式为.Json或.txt的文本信息。
步骤2的具体步骤为:
步骤2.1,构造停用词库,采用分词法对步骤1中的预训练文本进行分词预处理;
步骤2.2,将步骤2.1分词预处理得到的分词文本结果逐行读取文本,遍历词条,组合当前词条和下一词条,出现如下三种情况:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110251907.5/2.html,转载请声明来源钻瓜专利网。