[发明专利]一种基于同义词发现的网页表格信息解析方法在审

申请号：	202110251907.5	申请日：	2021-03-08
公开（公告）号：	CN113128210A	公开（公告）日：	2021-07-16
发明（设计）人：	魏嵬;刘维;邬凛;张贝贝;梁照阳;侯宇晴	申请（专利权）人：	西安理工大学
主分类号：	G06F40/247	分类号：	G06F40/247;G06F40/242;G06F40/216;G06F16/35;G06F40/289;G06F16/31
代理公司：	西安弘理专利事务所 61214	代理人：	弓长
地址：	710048 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于同义词发现网页表格信息解析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于同义词发现的网页表格信息解析方法，其特征在于，包括以下步骤：

步骤1，网页原始数据预处理，即去掉原始数据中无用代码符号和代码，得到预训练文本；

步骤2，对步骤1中的预训练文本进行分词预处理，随后进行关键词筛选，筛选结束后得到关键词词典；将关键词词典再次进行分词，生成词向量的基本知识库；

步骤3，将步骤2得到的基本知识库利用词向量技术，得到目标词的相近词出现的概率，获得同义词词典；

步骤4，解析待处理网页中的数据，根据网页表格标签代码样式，把网页中的表格数据转存到一个预先设置的二维数组列表里；

步骤5，通过步骤3的同义词词典对步骤4中的二维列表里的数据进行定位，然后根据特征信息的特点，进行信息提取和整合，完成解析过程。

2.根据权利要求1所述的一种基于同义词发现的网页表格信息解析方法，其特征在于，所述步骤1中的预训练文本为格式为.Json或.txt的文本信息。

3.根据权利要求1所述的一种基于同义词发现的网页表格信息解析方法，其特征在于，所述步骤2的具体步骤为：

步骤2.1，构造停用词库，采用分词法对步骤1中的预训练文本进行分词预处理；

步骤2.2，将步骤2.1分词预处理得到的分词文本结果逐行读取文本，遍历词条，组合当前词条和下一词条，出现如下三种情况：

若两词条皆不为停用词，则将其组合一起作为新词条存入新的组合词库中；若当前词条为停用词，则忽略当前词条；若下一词条为停用词，则忽略下一词条，进行重组；

步骤2.3，对经步骤2.2处理得到的文本数据结果进行关键词筛选分类，把相似的词条筛选出来，得到关键词词典，作为二次分词的自定义词库；

步骤2.4，对于步骤2.3得到的自定义词库重新分词，即再次执行步骤2.1-2.3，得到生成词向量的基本知识库。

4.根据权利要求3所述的一种基于同义词发现的网页表格信息解析方法，其特征在于，所述步骤2.1具体为：

步骤2.1.1，构造前缀词典，将词条作为键，词频作为对应的键值，遍历前缀词典，若前缀对应的键不存在，则将该前缀设为词典新的键，并将对应键值设置为0；

步骤2.1.2，使用正则表达式切割步骤1的预训练文本，预训练文本中每一个单独的子句均可生成一个有向无环图DAG，使用概率最大路径分词；

步骤2.1.3，对未登录词则采用隐马尔可夫模型HMM的联合概率建模；随后通过Viterbi算法求出概率最大的状态序列，然后基于状态序列输出文本的构词位置，进行分词。

5.根据权利要求1所述的一种基于同义词发现的网页表格信息解析方法，其特征在于，所述步骤3具体为：

步骤3.1，根据基本知识库建立词汇表，词汇表中任一单词拥有一个随机的词向量；将单词w_i的上下文C(w_i)＝{w_j|j∈|(i-R，i)∩(i+1，i+R)}，即就是上文为中心词的前R个词、下文为中心词的后R个词，把2R-1个上下文词向量的平均值输入CBOW，参数w_i表示w_i前面的前R个词和后R个词；由隐含层累加，在第三层的哈夫曼树中沿着某个特定的路径到达某个叶节点，得到对单词w_i的预测；

步骤3.2，根据单词w_i的哈夫曼编码确定从根节点到叶节点的正确路径，同时也确定了路径上所有分类器作出的预测；

步骤3.3，采用梯度下降法调整分类器中输入的词向量，使得实际路径向正确路径靠拢；在训练结束后，从词汇表中得到每个单词对应的词向量，获得词向量模型；

步骤3.4，保存步骤3.3的词向量模型，调用most_similar方法得到关键词的同义词，获得同义词词典。

6.根据权利要求1所述的一种基于同义词发现的网页表格信息解析方法，其特征在于，所述步骤4具体为：

步骤4，解析待处理网页中的数据，根据网页表格标签代码样式，把网页中的表格数据转存到一个预先设置的二维数组列表里。

步骤4.1，使用Beautifulsuop模块对待处理网页结构解析，利用网页中的表格标签定位到表格相应位置，查找到网页中成对的最小表格标签；

步骤4.2，计算表格中tr、td的数量，从而给出二维列表的行数，然后自定义给出列数，通过步骤4.1中解析网页标签的方式填入表格信息。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安理工大学，未经西安理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110251907.5/1.html，转载请声明来源钻瓜专利网。