[发明专利]一种基于同义词发现的网页表格信息解析方法在审
申请号: | 202110251907.5 | 申请日: | 2021-03-08 |
公开(公告)号: | CN113128210A | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 魏嵬;刘维;邬凛;张贝贝;梁照阳;侯宇晴 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06F40/247 | 分类号: | G06F40/247;G06F40/242;G06F40/216;G06F16/35;G06F40/289;G06F16/31 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 弓长 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开的一种基于同义词发现的网页表格信息解析方法,包括以下步骤:步骤1,网页原始数据预处理,得到预训练文本;步骤2,先分词预处理,随后进行关键词筛选,再次进行分词,生成基本知识库;步骤3,将基本知识库利用词向量技术,获得同义词词典;步骤4,解析待处理网页中的数据,根据网页表格标签代码样式,把网页中的表格数据转存到一个预先设置的二维数组列表里;步骤5,通过同义词词典对二维列表里的数据进行定位,完成解析过程。本发明网页表格信息解析方法,可实现对于用户所需数据的准确提取,由于进行了同义词发现过程,进一步增加了信息提取的准确性。 | ||
搜索关键词: | 一种 基于 同义词 发现 网页 表格 信息 解析 方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202110251907.5/,转载请声明来源钻瓜专利网。