[发明专利]钢贸行业现货资源的数据解析方法及系统有效

专利信息
申请号: 201410829896.4 申请日: 2014-12-22
公开(公告)号: CN104679819B 公开(公告)日: 2018-03-23
发明(设计)人: 衡宏昌;刘星辰 申请(专利权)人: 上海找钢网信息科技股份有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 上海翼胜专利商标事务所(普通合伙)31218 代理人: 孙佳胤,翟羽
地址: 201815 上海市嘉定区嘉*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 行业 现货 资源 数据 解析 方法 系统
【说明书】:

技术领域

发明涉及数据分析技术领域,尤其涉及一种钢贸行业现货资源的数据解析方法及系统。

背景技术

钢贸行业的“搜索”和其他行业一样,用户进入任何一个钢贸行业的网站,都会在醒目的位置找到搜索框,在搜索框内输入关键词就可以进行搜索。各种行业、领域的搜索框从形式上来看都是大同小异,但是后台的实现方式基于行业或者网站本身的特性是千差万别的。但无论基于何种方式,所有的搜索行为都会在一个给定的区域范围里进行。在钢贸行业,这样的一个用来查找目标信息的给定的区域范围称之为“资源池”。钢贸行业的“资源池”一般包括如下信息:品种、品名、规格、产地、仓库、价格、数量、重量、联系人等等。基于钢贸行业特性,用户在钢贸行业里进行搜索的目的当然是为了买入货物,而已经卖掉的货物或挂着前一天价格的货物并非用户所要查找的目标信息。所以,“资源池”里的数据一定是最新的,必须是搜索出来以后能够以挂牌价格买得到的货物。因此,“资源池”必须每天、甚至每小时源源不断地更新数据。

现代化钢贸行业网站的“资源池”数据一般是由不同的钢材供应商将包含现货货源信息的原始资源文档上传到网站,然后再汇总到网站的数据库中得来的。这些原始资源文档一般是以常见的文档格式上传的,比如word、Excel或txt文档,如图1A-1C所示。其中,图1A为包括一个数据区域的Excel文档形式的原始资源文档;图1B为包括多个数据区域的Excel文档形式的原始资源文档;图1C为文本文档形式的原始资源文档。

由于每个供应商上传的资源文档格式不尽相同,有的甚至是没有格式的纯自然语言;但最终需要录入到数据库的数据必须是严格按照网站要求的行列规整的数据表;因此需要将各种杂乱无章的、格式多样的资源文档中的数据提取出来,整理、筛选、组织成统一格式的有效数据。现有技术中资源文档的解析对于原始文档内容本身的格式规范要求比较高,必须是行列对齐工整的数据。一旦原始文档不符合要求就无法从中提取有效数据,因此有效数据转化率比较低。

发明内容

本发明的目的在于,针对现有技术中钢贸行业资源文档的解析对于原始文档内容本身的格式规范要求比较高,存在有效数据转化率比较低的技术问题,提供一种数据解析方法及系统,通过采用钢材标头特征库以及多种数据算法,大幅提高了有效数据转化率。

为实现上述目的,本发明提供了一种钢贸行业现货资源的数据解析方法,包括:(1)获取包含钢材现货资源的Excel文档作为待解析数据源;(2)对所述待解析数据源进行识别分区;(3)采用钢材标头特征库对识别分区后的每一区域的数据进行筛选,保留与钢材标头特征库匹配度最高的数据,从而确定所有目标区域,其中,钢材标头特征库为存放在数据库中的代表有效数据标头的一张穷举表;(4)启动预处理程序对所有目标区域数据进行初步格式化;(5)对预处理后所有目标区域范围内的数据进行抽取选样与所述钢材标头特征库提供的基础数据进行比对,确定数据行或数据列具体的代表名称;(6)清洗比对后的数据,得到完整的数据信息并存储入库。

为实现上述目的,本发明还提供了一种钢贸行业现货资源的数据解析系统,包括:文档获取单元、识别分区单元、数据筛选单元、格式化单元、数据比对单元以及数据清洗单元;所述文档获取单元,用于获取包含钢材现货资源的Excel文档作为待解析数据源;所述识别分区单元与所述文档获取单元相连,用于对所述待解析数据源进行识别分区;所述数据筛选单元与所述识别分区单元相连,用于采用钢材标头特征库对识别分区后的每一区域的数据进行筛选,保留与钢材标头特征库匹配度最高的数据,从而确定所有目标区域,其中,钢材标头特征库为存放在数据库中的代表有效数据标头的一张穷举表;所述格式化单元与所述数据筛选单元相连,用于启动预处理程序对所有目标区域数据进行初步格式化;所述数据比对单元与所述格式化单元相连,用于对预处理后所有目标区域范围内的数据进行抽取选样与所述钢材标头特征库提供的基础数据进行比对,确定数据行或数据列具体的代表名称;所述数据清洗单元与所述数据比对单元相连,用于清洗比对后的数据,得到完整的数据信息并存储入库。

本发明的优点在于:通过钢材标头特征库实现对于数据进行快速分类、比对有效数据、限定数据区域;并利用多种数据算法来提升数据定位、解析速度;经实测,采用本发明所述的数据解析方法,原始资源文档的有效数据转化率提升了70%左右,即大幅提升了有效数据转化率。

附图说明

图1A,包括一个数据区域的Excel文档形式的原始资源文档;

图1B,包括多个数据区域的Excel文档形式的原始资源文档;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海找钢网信息科技股份有限公司,未经上海找钢网信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410829896.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top