[发明专利]一种数据流处理及分类方法、装置和系统在审

申请号：	202010041246.9	申请日：	2020-01-15
公开（公告）号：	CN113132262A	公开（公告）日：	2021-07-16
发明（设计）人：	邹勇	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	H04L12/851	分类号：	H04L12/851;H04L12/859
代理公司：	北京思格颂知识产权代理有限公司 11635	代理人：	杨超
地址：	英属开曼群岛大开***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据流处理分类方法装置系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种数据流处理及分类方法、装置和系统，该处理方法包括：周期性统计转发数据流中指定数量的一组报文的持续时长，根据每个数据流的所述持续时长、硬件的数据处理能力，确定符合设定条件的第一数据流，将所述第一数据流分配给硬件进行转发处理。本发明通过部分报文的统计代替整个数据流的统计结果，减少了数据统计量，大大降低了系统资源消耗，减少了内存使用量，且能够快速准确的识别出符合条件的数据流，比如热点数据流。

技术领域

本发明涉及网络系统技术领域，特别地涉及一种数据流处理及分类方法、装置和系统。

背景技术

随着云计算和互联网的飞速发展，大数据处理的应用场景越来越多。目前在金融、移动数据、网络监控及物联网等领域中，经常会需要处理一些海量的、实时的、需要快速响应的数据流。因此，对网络中继设备的处理能力和处理速度提出了更高的要求。

系统软件和硬件均可以实现对来自发送端的所有的数据流量进行转发处理，但是由于硬件资源有限，并不足以支撑大数据量的处理，系统软件支持的数据流条目可以非常巨大，但其处理速度不如硬件，当需要处理的数据流量非常大，可能是千万，甚至是亿万级的数据需要转发处理时，还可能会出现拥堵和排队现象。

为了提高网络性能以及对网络数据流进行有效的管理，可以把一部分数据流分发到处理速度更快的硬件中实现快速处理。但是因为硬件存储资源有限，为了提高效率，只能将转发频率较高的数据流分配(offload)至硬件中，即，热点数据流分配至硬件中。因此，需要在海量的数据流中识别出热点数据流。

而且，由于数据流条目巨大，具体将哪些数据流分流到硬件中进行处理，则需要对所有数据流量进行统计，现有技术中对数据流量的统计更多的是基于单位时间的统计。比如常用的令牌桶等方式，是以单位时间内清除令牌桶个数来计数，从而感知单位时间流量的大小。但是这种方式，需要进行大量的除法计算，且无法直接进行数据流计数，不能分数据流进行统计，且额外地需要定时器支持。若需要分数据流进行统计，则需要针对每个数据流分别进行统计，数据统计量巨大，且需要对统计数据进行横向对比，以便确定热点数据流，这就会占用非常多的计算资源，会严重影响网络系统的性能。

且现有技术中也不能实现根据实际情况动态的调整分配到硬件中的数据流数量，因此，如何在占用较少数据资源的情况下，快速准确的识别出热点数据流并合理的分配到硬件中进行处理，成为亟待解决的技术问题。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种数据流处理及分类方法、装置和系统。

作为本发明实施例的一个方面，涉及一种数据流处理方法，包括：

周期性统计转发数据流中指定数量的一组报文的持续时长；

根据每个数据流的所述持续时长、硬件的数据处理能力，确定符合设定条件的第一数据流；

将所述第一数据流分配给硬件进行转发处理。

在一个实施例中，所述周期性统计转发数据流中指定数量的一组报文的持续时长，包括：

针对每个数据流，以包含预设报文数量的报文包组为单位，周期性统计每个报文包组中的报文转发处理的起始时间和结束时间，得到所述报文包组的所述持续时长。

在一个实施例中，所述根据每个数据流的所述持续时长、硬件的数据处理能力，确定符合设定条件的第一数据流，包括：

根据硬件的数据处理能力，结合待处理的数据流数量，确定硬件的处理比例；

根据统计到的各数据流的所述持续时长的分布情况和所述硬件的处理比例，确定时长分界点；