[发明专利]一种互联网大数据分析提取方法在审

专利信息
申请号: 202111298638.4 申请日: 2021-11-04
公开(公告)号: CN114117292A 公开(公告)日: 2022-03-01
发明(设计)人: 陈大海;张冰;徐浩;葛卫春 申请(专利权)人: 中通服咨询设计研究院有限公司
主分类号: G06F16/958 分类号: G06F16/958;G06F16/953;G06F16/906
代理公司: 江苏圣典律师事务所 32237 代理人: 于瀚文;胡建华
地址: 210019 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 互联网 数据 分析 提取 方法
【说明书】:

发明提供了一种互联网大数据分析提取方法,包括:步骤1、根据数据的特点,将数据对象划分为不同的部分和类型,得到所要提取的数据范围;步骤2、建立回归模型,并根据实测数据来求解模型的各参数,然后评价回归模型是否能够拟合实测数据,如果能够拟合,则根据自变量作进一步缩小所要提取的数据范围;步骤3、根据数据的特征属性将数据分成两个以上聚合类,每一个聚合类中的元素具有相同的特性,对所要抓取的数据进行分组;步骤4、采用相似匹配法来计算两个数据的相似程度;步骤5、用词频作为统计指标,表明数据所反馈的数据段信息;步骤6、得到数据分析结果。本发明利用基于嵌入映射的表征学习算法自动完成,计算效率高。

技术领域

本发明属于大数据技术领域,尤其涉及一种互联网大数据分析提取方法。

背景技术

大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

目前,很多采用网络爬虫方式,从公开网站抓取相关信息,然后进行结构化处理和存储,可能会被大量的过期信息、钓鱼网站信息等无用信息干扰,数据准确性和实用性较低。因此,需要深入研究互联网数据提取方法,解决其数据可信度和准确性提高的问题。

现有大数据的智能处理系统至少具有如下缺点:现有数据技术缺乏对非结构化数据的分析,丢失了大量有效信息,影响业务的分析结果;现有的数据分析和提取过分依赖于人力的特征提取,准确性低、计算效率差,对用户请求响应缓慢,影响用户体验;不同的服务通常采用不同的数据处理和特征提取方法,造成大量的冗余数据处理,并且不同服务的数据单元的特征不相兼容。

发明内容

发明目的:本发明的目的是为了解决现有技术中存在的缺点,而提出的一种互联网大数据分析提取方法,其排除了精准度和可信度低的数据,得到可信度和精准度更高的正查数据,相较于现有技术不是简单的获取,而是通过各种算法对原始数据进行了分析和提取,以此获得准确度高和可信度高的数据。

本发明方法具体包括如下步骤:

步骤1、根据数据的特点,将数据对象划分为不同的部分和类型,再进一步分析,得到所要提取的数据范围;

步骤2、通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各参数,然后评价回归模型是否能够拟合实测数据,如果能够拟合,则根据自变量作进一步缩小所要提取的数据范围;

步骤3、根据数据的特征属性将数据分成两个以上聚合类(特征属性是用于表示数据的,其来源可以是是统计分析,比如本发明所使用到的互联网文本数据,需要统计其特征属性包括来源网站、主题、词语、词频统计数等。步骤3是先进行一个初步的分组,相当于是初始化工作。后续是进一步的细化和提取),每一个聚合类中的元素具有相同的特性,对所要抓取的数据进行分组;

步骤4、采用相似匹配法来计算两个数据的相似程度;

步骤5、将步骤1~步骤4中频繁出现(选取词频统计达到前20%)的数据进行提取,根据数据的属性特征,用词频作为统计指标,表明数据所反馈的数据段信息;

步骤6、根据数据段分解正则表达式对待分析数据中的数据段进行数据分解(正则表达式是一种计算机文本处理技术,因为是互联网文本,里面含有很多格式性的符号(如html标记符号等),需要借助正则表达式进行处理和过滤掉),生成数据项值,并将数据项值与数据段分解正则表达式对应的数据项名称列表进行关联,形成数据项名称与数据项值对应的中间数据对,根据数据统计规则,对中间数据对进行统计分析,得到数据分析结果。

优选地,所述步骤2中,相似匹配算法可应用于如数据清洗、用户输入纠错、推荐统计、剽窃检测系统、自动评分系统、网页搜索和DNA序列匹配领域。步骤2中,实测数据表示实际实验测试的数据,也就是输入的数据,自变量来自于实测数据。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中通服咨询设计研究院有限公司,未经中通服咨询设计研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111298638.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top