生产环境选型考虑：5款大数据流处理平台

实时分析可以让您及时了解当前正在发生的事情，例如目前有多少人正在阅读您的新博客文章，以及是否有人喜欢您最新的 Facebook 状态。对于大多数平台分析来说，实时是一个不错的功能，它不会提供任何额外的功能。然而，有时实时处理是必须的。

假设您经营一家大型广告公司。实时分析可以让您随时了解最新的在线广告活动（您的客户花费大量资金购买）是否真的有效，如果没有，您可以在预算进一步花费之前立即进行更改。另一个用例是为您自己的应用程序提供实时分析——它看起来不错，您的用户可能需要它。

实时分析可以让您及时了解当前正在发生的事情，例如目前有多少人正在阅读您的新博客文章，以及是否有人喜欢您最新的 Facebook 状态。对于大多数用例来说，实时是一个不错的功能，它不会提供任何重要的见解。然而，有时实时是必须的。

假设您经营一家大型广告公司。实时分析可以让您随时了解您的最新在线广告活动（您的客户支付了大量资金）是否真的有效。如果不是，您可以在预算进一步花费之前立即进行更改。另一个用例是为您自己的应用程序提供实时分析。毕竟，这样做看起来不错，您的用户甚至可能需要它。

那里有很多实时平台。他们中的很多人都是新人，他们之间的区别并不是每个人都清楚。我们至少可以提供所有选项供您选择，因此这里有五个可用于大数据的实时流媒体平台。

1. Apache Flink

Apache Flink 是一个开源流媒体平台，在复杂流处理方面速度极快。事实上，它能够在几毫秒内处理实时流，因为它可以被编程为仅在实时通过大数据行时处理新的、更改的数据。通过这种方式，Flink 可以轻松实现大规模的批处理和流处理，以提供实时洞察，因此这个平台以提供低延迟和高性能着称也就不足为奇了

Flink 著名的另一个特性是容错，这意味着系统故障不会影响整个集群。它还设计为在完成计算的同时在任何集群环境中运行，使其成为一种可靠、快速的解决方案，恰好可以根据需要轻松扩展。精确一次语义的添加和预定义运算符的存在有助于在该平台上进行实时处理。

请注意，Flink 可以将事件流处理为有界或无界数据集。使用无界流，没有定义的结束并且可以始终如一地处理。另一方面，有界的事件流将作为批处理进行处理，并具有定义的开始和结束。这提供了一定的灵活性，因为程序可以用多种语言编写，例如 Python、Scala、SQL 和 Java。最后，Flink 以其易用性和易于与其他开源大数据处理工具（如 Kafka 和 Hadoop）集成而闻名。

2.Spark

另一个以速度和易用性着称的开源数据处理框架是 Spark。该平台在集群的 RAM 上运行在内存中，并且不依赖于 Hadoop 的 MapReduce 两阶段范式，这在大数据处理方面增加了其闪电般的快速性能。

它不仅可以轻松完成大型数据集的处理任务，还可以将它们分布在多台计算机上。此外，它还可以创建数据管道、处理数据流和图表等等。这就是为什么它是领先的实时流媒体平台之一，从批处理和机器学习到大规模 SQL 和流式大数据。事实上，英特尔、雅虎、Groupon、趋势科技和百度等公司已经在依赖 Apache Stream。

Spark 可以在独立集群模式或 Hadoop YARN 之上运行，它可以直接从 HDFS 读取数据。它还可以在 EC2、Mesos、Kubernetes、云等上运行。此外，Spark 用户可以使用 Python、SQL、R、Scala 或 Java 轻松编写应用程序，使其用途广泛且易于使用。这些功能是 Spark 成为当今顶级实时流媒体平台之一的原因。

3. Storm

Storm 是一个免费的分布式实时计算系统，它致力于实现 Hadoop 为批处理所做的工作。换句话说，它是一种用于处理无限大数据流的简单解决方案。使用 Storm 的一些大品牌包括 Spotify、Yelp 和 WebMD。

Storm 的一大好处是它被设计用于任何编程语言，为用户提供了很大的灵活性。此外，还有几个用例，包括实时分析、机器学习、ETL、连续计算等。与当今许多最好的实时流媒体平台一样，它速度很快，可确保在几毫秒内处理大数据。

关于 Storm 的其他一些需要了解的事实是，它具有容错性、可扩展性，并且易于与您可能已经在使用的技术集成。特别是，它运行在 Hadoop YARN 之上，可以与 Flume 一起使用，将数据存储在 HDFS 上。因此，在使用 Storm 时，无论您喜欢哪种编程语言，您都可以在一个易于设置和使用的平台上快速处理您的数据。

4. Apache Samza

Samza 是一个开源分布式流处理框架，允许用户构建可以实时处理来自多个来源的大数据的应用程序。它基于 Apache Kafka 和 YARN，但也可以作为独立库运行。 LinkedIn 最初开发了 Samza，但从那时起，其他大品牌也开始使用它，例如 eBay、Slack、Redfin、Optimizely 和 TripAdvisor。

Samza 提供了一个简单的基于回调的 API，类似于 MapReduce，它包括快照管理。它还以持久和可扩展的方式提供容错，以及有状态的处理和隔离。它与其他批处理系统（例如 Spark 或 Hadoop）真正区别开来的一个特性是它提供了连续的计算和输出，使其响应时间非常快。

总体而言，Samza 以为超快速数据分析提供非常高的吞吐量和低延迟而闻名。这使其成为为处理大数据而构建的众多平台中的流行选择。

5.Amazon Kinesis

Kinesis 是 Amazon 用于在云上实时处理流数据的服务。这种分析解决方案能够避免像 Hadoop 这样的工具所存在的批处理问题。正因为如此，Kinesis 在大数据处理方面能够更好地提供实时精度，因为它每小时可以处理多达数百 TB 的数据。

该服务的功能使您可以开发需要实时数据的应用程序。毕竟，借助 Kinesis，您可以使用此服务立即摄取、缓冲和处理您的数据，无论是视频、音频、网站点击流还是其他媒体。您不必等待首先收集所有数据，因为它可以在到达时进行处理。这使您可以在几分钟内获得人工智能、机器学习等的分析。 Kinesis 也是可扩展的，因为它可以以低延迟处理来自众多来源的大量流数据。

此外，Kinesis 通过连接器与其他 Amazon 服务集成，包括 Redshift、S3、DynamoDB，以形成完整的大数据架构。该工具还包括 Kinesis Client Library (KCL)，它允许您构建应用程序并将流数据用于仪表板、警报甚至动态定价。