今天如何成功地将大数据与 Spark 结合使用
您可能很难找到从未听说过 Apache Spark 或从未将大数据与 Spark 结合使用的大数据从业者。我们甚至可以说这几乎是不可能的——这是有充分理由的。 Spark 众所周知,因为它快速、可靠且功能强大。让我们深入探讨其中的原因,回答有关 Spark 计算的一些常见问题,如何轻松使用它来取得成功等等。
Apache Spark 是一种用于大规模数据处理的快速开源统一分析引擎。为应对 MapReduce 的限制,它于 2012 年在加州大学伯克利分校的 AMPLab 开发,其代码库现在由 Apache 软件基金会维护。
Spark 以速度快着称,因为与其前身 MapReduce 不同,它能够在内存 (RAM) 而不是磁盘驱动器上运行。由于它是开源软件,任何人都可以免费使用。开发人员可以制作量身定制的 Spark 版本来解决特定问题或用例。
可以使用 Spark 代替 Hadoop,而且随着开发人员开始认识到 Spark 的优势,这种做法越来越频繁。您可以在 Hadoop 上使用 Spark,也可以在没有 Hadoop 的情况下使用它,也可以将两者结合使用。
如果您已经拥有 Hadoop,则没有理由围绕它构建 Spark。如果您是从头开始,并且追求 Spark 提供的速度和实时数据分析,那么没有理由首先构建 Hadoop。
然而,答案实际上取决于您尝试使用 Spark 运行大数据的目的。 Hadoop 旨在高效处理批处理,而 Spark 旨在高效处理实时数据。因此,如果您的目标是分析实时事件,Spark Streaming 可能是最佳选择。当您需要从 Hadoop 的资源管理器获得复杂的资源管理时,使用 Spark on Hadoop 将是最佳选择。
您使用 Spark 来分析和操作大数据,以检测模式并获得实时洞察力。它可以在任何类 UNIX 系统(Mac OS 或 Linux)、Windows 或任何运行当前支持的 Java 版本的系统上运行。 (有关更多详细信息,请查看文档。Spark 有许多使用大数据的用例,从零售商使用它来分析消费者行为,到医疗保健领域为患者提供更好的治疗建议。
优化 Spark 大数据工作负载的 3 个技巧
一旦开始运行 Spark 工作负载,您可能会遇到常见的 Spark 问题,例如滞后或作业失败。以下是我们发誓可以提供帮助的三个提示。
有些公司选择在没有额外工具的情况下运行 Spark,但我们建议使用 APM 工具来确保您满足 SLA、实现业务目标并保持在预算之内。