[发明专利]一种基于同义词发现的网页表格信息解析方法在审

专利信息
申请号: 202110251907.5 申请日: 2021-03-08
公开(公告)号: CN113128210A 公开(公告)日: 2021-07-16
发明(设计)人: 魏嵬;刘维;邬凛;张贝贝;梁照阳;侯宇晴 申请(专利权)人: 西安理工大学
主分类号: G06F40/247 分类号: G06F40/247;G06F40/242;G06F40/216;G06F16/35;G06F40/289;G06F16/31
代理公司: 西安弘理专利事务所 61214 代理人: 弓长
地址: 710048 陕*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 同义词 发现 网页 表格 信息 解析 方法
【权利要求书】:

1.一种基于同义词发现的网页表格信息解析方法,其特征在于,包括以下步骤:

步骤1,网页原始数据预处理,即去掉原始数据中无用代码符号和代码,得到预训练文本;

步骤2,对步骤1中的预训练文本进行分词预处理,随后进行关键词筛选,筛选结束后得到关键词词典;将关键词词典再次进行分词,生成词向量的基本知识库;

步骤3,将步骤2得到的基本知识库利用词向量技术,得到目标词的相近词出现的概率,获得同义词词典;

步骤4,解析待处理网页中的数据,根据网页表格标签代码样式,把网页中的表格数据转存到一个预先设置的二维数组列表里;

步骤5,通过步骤3的同义词词典对步骤4中的二维列表里的数据进行定位,然后根据特征信息的特点,进行信息提取和整合,完成解析过程。

2.根据权利要求1所述的一种基于同义词发现的网页表格信息解析方法,其特征在于,所述步骤1中的预训练文本为格式为.Json或.txt的文本信息。

3.根据权利要求1所述的一种基于同义词发现的网页表格信息解析方法,其特征在于,所述步骤2的具体步骤为:

步骤2.1,构造停用词库,采用分词法对步骤1中的预训练文本进行分词预处理;

步骤2.2,将步骤2.1分词预处理得到的分词文本结果逐行读取文本,遍历词条,组合当前词条和下一词条,出现如下三种情况:

若两词条皆不为停用词,则将其组合一起作为新词条存入新的组合词库中;若当前词条为停用词,则忽略当前词条;若下一词条为停用词,则忽略下一词条,进行重组;

步骤2.3,对经步骤2.2处理得到的文本数据结果进行关键词筛选分类,把相似的词条筛选出来,得到关键词词典,作为二次分词的自定义词库;

步骤2.4,对于步骤2.3得到的自定义词库重新分词,即再次执行步骤2.1-2.3,得到生成词向量的基本知识库。

4.根据权利要求3所述的一种基于同义词发现的网页表格信息解析方法,其特征在于,所述步骤2.1具体为:

步骤2.1.1,构造前缀词典,将词条作为键,词频作为对应的键值,遍历前缀词典,若前缀对应的键不存在,则将该前缀设为词典新的键,并将对应键值设置为0;

步骤2.1.2,使用正则表达式切割步骤1的预训练文本,预训练文本中每一个单独的子句均可生成一个有向无环图DAG,使用概率最大路径分词;

步骤2.1.3,对未登录词则采用隐马尔可夫模型HMM的联合概率建模;随后通过Viterbi算法求出概率最大的状态序列,然后基于状态序列输出文本的构词位置,进行分词。

5.根据权利要求1所述的一种基于同义词发现的网页表格信息解析方法,其特征在于,所述步骤3具体为:

步骤3.1,根据基本知识库建立词汇表,词汇表中任一单词拥有一个随机的词向量;将单词wi的上下文C(wi)={wj|j∈|(i-R,i)∩(i+1,i+R)},即就是上文为中心词的前R个词、下文为中心词的后R个词,把2R-1个上下文词向量的平均值输入CBOW,参数wi表示wi前面的前R个词和后R个词;由隐含层累加,在第三层的哈夫曼树中沿着某个特定的路径到达某个叶节点,得到对单词wi的预测;

步骤3.2,根据单词wi的哈夫曼编码确定从根节点到叶节点的正确路径,同时也确定了路径上所有分类器作出的预测;

步骤3.3,采用梯度下降法调整分类器中输入的词向量,使得实际路径向正确路径靠拢;在训练结束后,从词汇表中得到每个单词对应的词向量,获得词向量模型;

步骤3.4,保存步骤3.3的词向量模型,调用most_similar方法得到关键词的同义词,获得同义词词典。

6.根据权利要求1所述的一种基于同义词发现的网页表格信息解析方法,其特征在于,所述步骤4具体为:

步骤4,解析待处理网页中的数据,根据网页表格标签代码样式,把网页中的表格数据转存到一个预先设置的二维数组列表里。

步骤4.1,使用Beautifulsuop模块对待处理网页结构解析,利用网页中的表格标签定位到表格相应位置,查找到网页中成对的最小表格标签;

步骤4.2,计算表格中tr、td的数量,从而给出二维列表的行数,然后自定义给出列数,通过步骤4.1中解析网页标签的方式填入表格信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110251907.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top