2024年3月 – gitweixin

Flink, Spark 3月 17,2024

Flink跟Spark Streaming的区别

架构模型：
- Spark Streaming：基于 Spark 框架，其运行时主要角色包括 Master、Worker、Driver 和 Executor。Driver 负责创建和管理作业，Executor 则执行任务。
- Flink：独立的实时处理引擎，主要包含 Jobmanager、Taskmanager 和 Slot。Jobmanager 负责作业的管理和调度，Taskmanager 执行具体的任务。
任务调度：
- Spark Streaming：通过连续不断地生成微小的数据批次来处理数据。它构建有向无环图DAG，并依次创建 DStreamGraph、JobGenerator 和 JobScheduler。
- Flink：根据用户提交的代码生成 StreamGraph，经过优化生成 JobGraph，然后提交给 JobManager 进行处理。JobManager 根据 JobGraph 生成 ExecutionGraph，用于任务调度。
时间机制：
- Spark Streaming：仅支持处理时间，即处理数据的时间。
- Flink：支持处理时间、事件时间和注入时间的定义，并引入 watermark 机制来处理滞后数据。
容错机制：
- Spark Streaming：可以设置 checkpoint 来恢复任务，但可能会导致重复处理，无法保证恰好一次处理语义。
- Flink：使用两阶段提交协议来确保精确的一次处理语义，更好地处理容错。
数据模型：
- Spark Streaming：基于 DStream（Discretized Stream）模型，将流数据看作是一系列微小批次的静态数据。
- Flink：采用更灵活的 DataStream 模型，支持各种数据结构和操作。
应用场景：
- Spark Streaming：适用于需要与现有 Spark 生态系统集成的场景，如批处理和交互式查询。
- Flink：更专注于实时处理，提供更丰富的实时处理特性和更好的低延迟性能。
性能和扩展性：
- Flink：在处理大流量和高并发场景时通常具有更好的性能和扩展性。
- Spark Streaming：在某些情况下可能受到 Spark 核心框架的限制。

通过以上对比，我们可以看出Flink和Spark Streaming在架构模型、任务调度、时间机制和容错机制等方面存在显著差异。Flink作为一个基于事件驱动的实时处理引擎，具有更好的时间机制和容错机制，适用于对准确性要求较高的场景。而Spark Streaming作为一个基于微批的流处理引擎，具有较低的延迟和较高的吞吐量，适用于对性能要求较高的场景。在选择流处理框架时，应根据具体需求和场景选择合适的框架。

作者 east

Spark 3月 16,2024

Spark 用AnyFunSuite单元测试Scala详细教程

在用java开发时，通过用Junit框架来测试，在用spark开发scala时，除了可以用Junit，还可以用AnyFunSuite，无需依赖AnyFunSuite。

步骤一：设置项目依赖
确保您的项目中包含了以下必要的依赖：

<dependency>
  <groupId>org.apache.spark</groupId>
  <artifactId>spark-sql_2.11</artifactId>
  <version>2.4.0</version>
</dependency>

org.apache.spark spark-core_2.11 2.4.0 test

<!-- ScalaTest 依赖 -->
<dependency>
  <groupId>org.scalatest</groupId>
  <artifactId>scalatest_2.11</artifactId>
  <version>3.2.9</version>
  <scope>test</scope>
</dependency>

步骤二、编写单元测试
例如下面wordcount的代码

import org.apache.spark.sql.SparkSession

object WordCount {
def wordCount(input: String): Long = {
val spark = SparkSession.builder().appName(“WordCount”).master(“local[*]”).getOrCreate()
val words = spark.sparkContext.parallelize(input.split(” “))
val count = words.count()
spark.stop()
count
}
}
编写单元测试的代码：

import org.scalatest.funsuite.AnyFunSuite

class WordCountTest extends AnyFunSuite {

test(“wordCount should return correct word count”) {
val input = “Hello world, hello Scala”
val expectedResult = 5
val result = WordCount.wordCount(input)
assert(result == expectedResult)
}

}
步骤三：运行单元测试
在 IDEA 中右键点击测试类名或测试方法名，选择 “Run WordCountTest” 或 “Run ‘wordCount should return correct word count'” 来运行单元测试。您也可以点击绿色的三角形按钮执行所有测试用例。

关注公众号“大模型全栈程序员”回复“大数据面试”获取800页左右大数据面试宝典，回复“大数据”获取多本大数据电子书

作者 east

月度归档3月 2024