[发明专利]一种基于同义词发现的网页表格信息解析方法在审
申请号: | 202110251907.5 | 申请日: | 2021-03-08 |
公开(公告)号: | CN113128210A | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 魏嵬;刘维;邬凛;张贝贝;梁照阳;侯宇晴 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06F40/247 | 分类号: | G06F40/247;G06F40/242;G06F40/216;G06F16/35;G06F40/289;G06F16/31 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 弓长 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 同义词 发现 网页 表格 信息 解析 方法 | ||
1.一种基于同义词发现的网页表格信息解析方法,其特征在于,包括以下步骤:
步骤1,网页原始数据预处理,即去掉原始数据中无用代码符号和代码,得到预训练文本;
步骤2,对步骤1中的预训练文本进行分词预处理,随后进行关键词筛选,筛选结束后得到关键词词典;将关键词词典再次进行分词,生成词向量的基本知识库;
步骤3,将步骤2得到的基本知识库利用词向量技术,得到目标词的相近词出现的概率,获得同义词词典;
步骤4,解析待处理网页中的数据,根据网页表格标签代码样式,把网页中的表格数据转存到一个预先设置的二维数组列表里;
步骤5,通过步骤3的同义词词典对步骤4中的二维列表里的数据进行定位,然后根据特征信息的特点,进行信息提取和整合,完成解析过程。
2.根据权利要求1所述的一种基于同义词发现的网页表格信息解析方法,其特征在于,所述步骤1中的预训练文本为格式为.Json或.txt的文本信息。
3.根据权利要求1所述的一种基于同义词发现的网页表格信息解析方法,其特征在于,所述步骤2的具体步骤为:
步骤2.1,构造停用词库,采用分词法对步骤1中的预训练文本进行分词预处理;
步骤2.2,将步骤2.1分词预处理得到的分词文本结果逐行读取文本,遍历词条,组合当前词条和下一词条,出现如下三种情况:
若两词条皆不为停用词,则将其组合一起作为新词条存入新的组合词库中;若当前词条为停用词,则忽略当前词条;若下一词条为停用词,则忽略下一词条,进行重组;
步骤2.3,对经步骤2.2处理得到的文本数据结果进行关键词筛选分类,把相似的词条筛选出来,得到关键词词典,作为二次分词的自定义词库;
步骤2.4,对于步骤2.3得到的自定义词库重新分词,即再次执行步骤2.1-2.3,得到生成词向量的基本知识库。
4.根据权利要求3所述的一种基于同义词发现的网页表格信息解析方法,其特征在于,所述步骤2.1具体为:
步骤2.1.1,构造前缀词典,将词条作为键,词频作为对应的键值,遍历前缀词典,若前缀对应的键不存在,则将该前缀设为词典新的键,并将对应键值设置为0;
步骤2.1.2,使用正则表达式切割步骤1的预训练文本,预训练文本中每一个单独的子句均可生成一个有向无环图DAG,使用概率最大路径分词;
步骤2.1.3,对未登录词则采用隐马尔可夫模型HMM的联合概率建模;随后通过Viterbi算法求出概率最大的状态序列,然后基于状态序列输出文本的构词位置,进行分词。
5.根据权利要求1所述的一种基于同义词发现的网页表格信息解析方法,其特征在于,所述步骤3具体为:
步骤3.1,根据基本知识库建立词汇表,词汇表中任一单词拥有一个随机的词向量;将单词wi的上下文C(wi)={wj|j∈|(i-R,i)∩(i+1,i+R)},即就是上文为中心词的前R个词、下文为中心词的后R个词,把2R-1个上下文词向量的平均值输入CBOW,参数wi表示wi前面的前R个词和后R个词;由隐含层累加,在第三层的哈夫曼树中沿着某个特定的路径到达某个叶节点,得到对单词wi的预测;
步骤3.2,根据单词wi的哈夫曼编码确定从根节点到叶节点的正确路径,同时也确定了路径上所有分类器作出的预测;
步骤3.3,采用梯度下降法调整分类器中输入的词向量,使得实际路径向正确路径靠拢;在训练结束后,从词汇表中得到每个单词对应的词向量,获得词向量模型;
步骤3.4,保存步骤3.3的词向量模型,调用most_similar方法得到关键词的同义词,获得同义词词典。
6.根据权利要求1所述的一种基于同义词发现的网页表格信息解析方法,其特征在于,所述步骤4具体为:
步骤4,解析待处理网页中的数据,根据网页表格标签代码样式,把网页中的表格数据转存到一个预先设置的二维数组列表里。
步骤4.1,使用Beautifulsuop模块对待处理网页结构解析,利用网页中的表格标签定位到表格相应位置,查找到网页中成对的最小表格标签;
步骤4.2,计算表格中tr、td的数量,从而给出二维列表的行数,然后自定义给出列数,通过步骤4.1中解析网页标签的方式填入表格信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110251907.5/1.html,转载请声明来源钻瓜专利网。