spark – gitweixin

Flink, Spark 4月 19,2022

大数据实时流式处理:Apache Flink vs Apache

对更快数据处理的需求一直在增加，实时流数据处理是目前的解决方案。虽然 Apache Spark 仍在许多组织中用于大数据处理，但 Apache Flink 已经迅速成为替代方案。事实上，许多人认为它有可能取代 Apache Spark，因为它能够实时处理流数据。当然，Flink 能否取代 Spark 尚无定论，因为 Flink 还没有经过广泛的测试。但实时处理和低数据延迟是其两个决定性特征。同时，这需要考虑到 Apache Spark 可能不会失宠，因为它的批处理能力仍然很重要。

流式数据处理案例

对于基于批处理的所有优点，实时流数据处理似乎是一个强有力的案例。流式数据处理使快速设置和加载数据仓库成为可能。具有低数据延迟的流处理器可以快速提供对数据的更多见解。所以，你有更多的时间来了解发生了什么。除了更快的处理之外，还有另一个显着的好处：您有更多的时间来设计对事件的适当响应。例如，在异常检测的情况下，更低的延迟和更快的检测使您能够确定最佳响应，这是防止安全网站受到欺诈攻击或工业设备损坏等情况的关键。因此，您可以防止重大损失。

什么是 Apache Flink？

Apache Flink 是一种大数据处理工具，以在大规模分布式系统上以低数据延迟和高容错性快速处理大数据而著称。它的定义特征是它能够实时处理流数据。

Apache Flink 最初是一个学术开源项目，当时它被称为 Stratosphere。后来，它成为了 Apache 软件基金会孵化器的一部分。为避免与其他项目名称冲突，将名称更改为 Flink。 Flink 这个名字很合适，因为它意味着敏捷。即使选择的标志，松鼠也是合适的，因为松鼠代表了敏捷、敏捷和速度的美德。

自从加入 Apache 软件基金会后，它作为大数据处理工具迅速崛起，并在 8 个月内开始受到更广泛受众的关注。人们对 Flink 的兴趣日益浓厚，这反映在 2015 年的多次会议的参会人数上。2015 年 5 月在伦敦举行的 Strata 会议和 2015 年 6 月在圣何塞举行的 Hadoop 峰会上，有很多人参加了关于 Flink 的会议。 2015 年 8 月，超过 60 人参加了在圣何塞 MapR 总部举办的湾区 Apache Flink 聚会。

下图给出了 Flink 的 Lambda 架构。

Spark 和 Flink 的比较

虽然 Spark 和 Flink 之间有一些相似之处，例如它们的 API 和组件，但在数据处理方面，相似之处并不重要。下面给出了 Flink 和 Spark 之间的比较。

数据处理

Spark 以批处理模式处理数据，而 Flink 实时处理流数据。 Spark 处理数据块，称为 RDD，而 Flink 可以实时处理一行一行的数据。因此，虽然 Spark 始终存在最小数据延迟，但 Flink 并非如此。

迭代

Spark 支持批量数据迭代，但 Flink 可以使用其流式架构原生迭代其数据。下图显示了迭代处理是如何发生的。

内存管理

Flink 可以自动适应不同的数据集，但 Spark 需要手动优化和调整其作业以适应单个数据集。 Spark 也进行手动分区和缓存。因此，预计处理会有所延迟。

数据流

Flink 能够在需要时为其数据处理提供中间结果。 Spark 遵循过程式编程系统，而 Flink 遵循分布式数据流方法。因此，当需要中间结果时，广播变量用于将预先计算的结果分发到所有工作节点。

数据可视化

Flink 提供了一个 Web 界面来提交和执行所有作业。 Spark 和 Flink 都与 Apache Zeppelin 集成，并提供数据摄取、数据分析、发现、协作和可视化。 Apache Zeppelin 还提供了多语言后端，允许您提交和执行 Flink 程序。

处理时间

以下段落提供了 Flink 和 Spark 在不同作业中所用时间的比较。

为了公平比较，Flink 和 Spark 都以机器规格和节点配置的形式获得了相同的资源。

Flink 处理速度更快，因为它的流水线执行。处理数据，Spark 用了 2171 秒，而 Flink 用了 1490 秒。

当执行不同数据大小的 TeraSort 时，结果如下：

对于 10 GB 的数据，Flink 需要 157 秒，而 Spark 需要 387 秒。
对于 160 GB 的数据，Flink 需要 3127 秒，而 Spark 需要 4927 秒。
基于批处理或流式数据——哪个过程更好？

这两种工艺各有优势，适用于不同的情况。尽管许多人声称基于批处理的工具正在失宠，但它不会很快发生。要了解它们的相对优势，请参见以下比较：

在个别情况下，Flink 和 Spark批处理都是有用的。以每天计算滚动月销售额的用例为例。在此活动中，需要计算每日销售总额，然后进行累计。在这样的用例中，可能不需要对数据进行流式处理。数据的批处理可以根据日期处理各个批次的销售数据，然后将它们添加。在这种情况下，即使存在一些数据延迟，也可以在稍后将该潜在数据添加到以后的批次中时弥补这些延迟。

有类似的用例需要流处理。以计算每个访问者在网站上花费的每月滚动时间的用例为例。在网站的情况下，访问次数可以每小时、每分钟甚至每天更新一次。但是这种情况下的问题是定义会话。定义会话的开始和结束可能很困难。此外，难以计算或识别不活动的时间段。因此，在这种情况下，定义会话甚至不活动时间段都没有合理的界限。在这种情况下，需要实时处理流数据。

概括

虽然 Spark 在批处理数据处理方面有很多优势，而且它仍然有很多使用场景，但 Flink 似乎正在迅速获得商业方面应用的青睐。 Flink 也可以进行批处理这一事实似乎对其有利。当然，这需要考虑到 Flink 的批处理能力可能与 Spark 不在一个级别。

作者 east

Flink, Spark 4月 13,2022

Flink和Spark的Transformation不同地方对比

1、合并输入流：

在spark有Union
返回一个包含源DStream与其他 DStream的元素合并后的新DSTREAM。具体例子可以参考Spark Streaming多个输入流

在Flink中更高级，除了有union合并多个输入流（
union()所连接的两个或多个数据流的数据类型必须一致），还有connect（）。

①connect()只能连接两个数据流，union()可以连接多个数据流。

②connect()所连接的两个数据流的数据类型可以不一致，union()所连接的两个或多个数据流的数据类型必须一致。

③两个DataStream经过connect()之后被转化为ConnectedStreams，ConnectedStreams会对两个流的数据应用不同的处理方法，且两个流之间可以共享状态。

2、求最大最小的操作

Flink有 max()、 maxBy() 对该字段求最大值。
min()、minBy对某字段求最小值

作者 east

Spark 4月 3,2022

生产环境选型考虑：Spark和Tez有什么不同

让我们开始这场精彩的讨论。首先，退一步；我们已经指出 Apache Spark 和 Hadoop MapReduce 是两种不同的大数据利器。前者是高性能的内存数据处理框架，后者是成熟的PB级批处理平台。我们也知道 Apache Hive 和 HBase 是两个功能相似的非常不同的工具。 Hive 是运行 MapReduce 作业的类似 SQL 的引擎，而 HBase 是 Hadoop 上的 NoSQL 键/值数据库。

在纸面上，它们有很多共同点。两者都具有内存功能，都可以在 Hadoop YARN 之上运行，并且都支持来自任何数据源的所有数据类型。那么两者有什么区别呢？

Tez 非常适合 YARN 架构。 Spark 可能会遇到资源管理问题。

Spark 更适合主流开发人员，而 Tez 是专用工具的框架。

Spark 不能与 YARN 应用程序同时运行（目前）。 Tez 是专门为在 YARN 之上执行而构建的。

Tez 的容器可以在完成后关闭以节省资源。即使不处理数据，Spark 的容器也会占用资源。

这些只是高层次上的一些差异。在这里，我们将探索这些项目中的每一个。

什么是 Apache Spark？

Apache Spark 是一个用于处理大数据的开源分析引擎和集群计算框架。它是非营利性 Apache 软件基金会的创意，该基金会是一个致力于各种开源软件项目的去中心化组织。

它于 2014 年首次发布，基于 Hadoop MapReduce 分布式计算框架构建。它保留了 MapReduce 的许多优点——例如可扩展性和容错性——同时还提高了速度和易用性。

除了核心数据处理引擎，它还包括 SQL、机器学习和流处理库。该框架与 Java、Scala、Python 和 R 编程语言兼容，赢得了开发人员的广泛关注。它还支持第三方技术，如 Amazon S3、Hadoop 的 HDFS、MapR XD 和 NoSQL 数据库，如 Cassandra 和 MongoDB。

它的吸引力在于它能够将不同的流程、技术和技术整合到一个单一的大数据管道中，从而提高生产力和效率。由于其灵活性，它已成为大数据处理领域非常流行和有效的“瑞士军刀”。

什么是 Apache Tez？

Apache Tez 是一个基于 MapReduce 技术的大数据处理开源框架。两者都提供了一个执行引擎，可以使用有向无环图 (DAG) 来处理大量数据。

它通过将计算视为 DAG 来概括 MapReduce 范式。 MapReduce 任务组合成一个作业，该作业被视为 DAG 中的一个节点，执行并发和序列化。

同时，DAG 的边缘表示作业之间的数据移动。 Tez 与数据类型无关，因此它只关心数据的移动（而不是它采用的格式）。

通过改进 MapReduce 的一些限制，Tez 试图提高数据处理作业的性能。这种增加的效率使程序员能够做出他们认为最适合他们的项目的设计和开发选择。

Apache Spark 将自己标榜为“用于大规模数据处理的统一分析引擎”。同时，Apache Tez 称自己为“一个应用程序框架，它允许使用复杂的有向无环图来处理数据的任务”。

因为 Spark 也使用有向无环图，这两个工具听起来是不是很相似？可能是。但也有一些重要的区别需要考虑。以下是两者之间的根本区别：

差异#1：Hive和Pig

差异 #2：Hadoop YARN

差异#3：性能测试

我们将在下面的部分中详细介绍这些差异中的每一个。

他们支持Pig和Hive吗？

Hive 和 Pig 是两个用于大数据的开源 Apache 软件应用程序。 Hive 是一个数据仓库，而 Pig 是一个用于创建在 Hadoop 上运行的数据处理作业的平台。虽然两者都声称支持 Pig 和 Hive，但现实并不那么清楚。我们尝试使用 Spork 项目在 Spark 上运行 Pig，但遇到了一些问题；至少，在 Spark 上使用 Pig 充其量仍是不确定的。

使用YARN

YARN 是 Hadoop 的资源管理器和作业调度器。理论上，Spark 既可以作为独立应用程序执行，也可以在 YARN 之上执行。然而，Tez 是专门为在 YARN 之上执行而构建的。不过，Spark 不能与其他 YARN 应用程序同时运行（至少现在还不能）。

Tez 项目的开发人员之一 Gopal V 写了一篇关于他为什么喜欢 Tez 的详细文章。他的结论是：

“在我使用过的框架之间，这是 Tez 真正的区别特性——Tez 不需要容器保持运行来做任何事情，只需应用程序管理器在不同查询之间的空闲期间运行。您可以保留容器，但这是一种优化，而不是会话空闲期间的要求。”

他所说的“框架”也指 Spark——它的容器需要保持运行并占用资源，即使它们不处理任何数据。但是，Tez 容器可以在完成后立即关闭并释放资源。

大多数情况下，您无论如何都会使用基于 Hadoop 的应用程序，例如 Hive、HBase 甚至经典的 MapReduce。因此，您可以在任何 Hadoop 集群上安装 Spark，但您可能会遇到资源管理问题。另一方面，Tez 可以非常适合您的 YARN 架构，包括资源管理。

Apache Spark 的亮点：图形处理

GraphX 是扩展 Spark RDD 的图计算引擎。术语“图”是指图论中的图，而不是用于商业计算的图。图论中使用的图捕获数据之间的交互和依赖关系。

GraphX 最初是加州大学伯克利分校的一个研究项目。该项目后来被捐赠给了 Apache 软件基金会和 Spark 项目。

GraphX 不同于其他图计算引擎，因为它将图分析和 ETL 统一在一个平台上。 GraphX 还可以分析非图形形式的数据。其内存计算能力使 GraphX 比其他图形处理引擎更快。

图处理的常用场景

社交网络分析 – 用于识别影响者以进行目标营销

欺诈检测 – 银行、信用卡公司和在线商店使用图形分析来识别异常趋势。

供应链优化 – 公司可以使用图表分析来确定其供应链的最佳路线

贷款决策 – 抵押贷款公司和银行使用图表分析来评估申请人的数据以做出贷款决策。

Google 如何使用图形处理

Google 使用一种称为 PageRank 算法的图形分析算法。 PageRank 算法根据重要性对图中的顶点进行排名，其中重要性是指向该顶点的边数。该算法是由 Google 的创始人开发的，因此流行的搜索引擎是 PageRank 的一个典型例子。谷歌根据页面的重要性对页面进行排名，重要性是指向页面的超链接数量。

那么哪个更快？

也许最大的问题是——哪个更快？根据各种基准，这两个选项都显着提高了 MapReduce 性能；但是，获胜者可能取决于谁在进行测量。就独立第三方评估而言，陪审团仍未出局。

Spark 声称运行速度比 MapReduce 快 100 倍。在加州大学伯克利分校的 Amplab 进行的基准测试表明，它的运行速度比它的同类产品快得多（测试将 Spark 称为 Shark，它是 Spark SQL 的前身）。

然而，由于伯克利发明了 Spark，这些测试可能并非完全没有偏见。此外，这些基准测试是几年前使用运行在 MapReduce 上的 Hive 0.12 进行的。从版本 0.13 开始，Hive 使用 Tez 作为其执行引擎，从而显着提高了性能。

与此同时，Hortonworks 对两者之间的问题表现进行了基准测试。他们发现在 Tez 上运行的 Hive 0.13 的运行速度比 Hive 0.12 快 100 倍（尽管相当多的测试查询神秘地消失了）。快了 100 倍……嗯，听起来很熟悉？

因此，它们的性能都比 Hadoop MapReduce 高 100 倍。但哪个最快？

没有人可以说——或者更确切地说，他们不会承认。如果你问为 IBM 工作的人，他们会告诉你答案都不是，而且 IBM Big SQL 比两者都快。我们需要第三方来运行独立的性能测试并一劳永逸地确定分数。

小结：

这个问题最终可能归结为政治和受欢迎程度。这是大数据巨头的冲突，Cloudera 支持 Spark，Hortonworks 支持 Tez。 Spark 更为广泛，因为它可以在各种发行版中使用，而 Tez 仅在 Hortonworks 的发行版中可用。

最终，用户群可能决定框架的命运。目前，至少根据谷歌趋势，Spark 正在赢得这场比赛。

也许在炒作消退之后，在人们获得了更多与两者合作的经验之后，我们最终将能够判断谁将成为 MapReduce 王冠的继承人。

作者 east

标签归档spark