大数据云性能管理：如何做对

大数据云性能管理是在云中取得成功的关键。与云计算相结合，大数据可以改变企业——尤其是在管理得当的情况下。它不需要资本支出，支持更快的数据处理和分析，并允许快速扩展。但是，没有计划在云中正确管理大数据性能可能是实现云承诺的 ROI 和不得不失败地返回数据中心之间的区别。继续阅读以了解更多关于为什么大数据性能管理如此重要、如何正确进行以及如何使用一种工具使这一切变得更容易的信息。

分解一下：大数据指的是大量数据，这些数据来得很快，很难用传统方法进行管理。云中的大数据本质上是在任何云上运行大数据——而不仅仅是在数据中心。您无需使用自己的硬件，而是拥有“云中”空间来运行您的大数据。

在云中运行大数据流程最突出的好处之一是按需服务。一个组织的计算需求在高峰时段、平静时刻和服务的随机峰值期间可能会有很大差异。虽然维持足够数量的计算资源以满足要求已成为常态，但事实证明这种做法的成本非常高。相反，如果一个组织试图通过只维持最少的资源来降低成本，很可能没有足够的资源来满足高峰需求。

借助大数据云模型，企业可以享受这种按需功能，他们可以根据普遍要求通过单击按钮、通过 API 或通过基于规则的框架配置自动扩展或缩减计算资源。用户可以根据需要配置或取消配置计算资源，而无需与云提供商交互。

将应用程序和流程迁移到云环境的主要优势之一是显着降低基础架构成本。运营大型本地数据中心每年会使组织损失 1000 万至 2500 万美元。很大一部分用于基础设施维护，包括维护、监控、安全和审计。
如果使用得当，利用云方法可以节省大量资金。这是因为基于云的流程和应用程序具有适应性、可扩展性和成本效益。随着大数据应用程序和任务被转移到云端，企业可以以非常快的速度创建、测试和部署产品和服务。在少数情况下，迁移到云的企业设法将节省的资金增加了十倍。

云计算有效地促进了当今企业从 CapEx（资本支出）支出模式向 Opex（运营支出）模式的转变。传统上，IT 基础设施的资本支出很大，主要来自购买和维护资本资产，例如建筑物、硬件和软件许可等。另一方面，Opex 是帮助公司生产和向客户提供产品和服务的经常性支出。这些包括公用事业、工资和计算资源。

迁移到云基础架构可帮助企业消除许多资本支出成本。通过切换到运营支出模型，组织可以创造大量内部机会，因为它释放了宝贵的资金和资源，否则这些资金和资源将用于获取、管理和维护资本资产。

到 2026 年，全球云计算市场有望从 2021 年的 4455 亿美元增长到令人印象深刻的 9473 亿美元。云服务供应商之间的激烈竞争凸显了这一增长。亚马逊、微软和谷歌等家喻户晓的名字在这个领域占据主导地位。

Amazon Web Services (AWS) 提供了大量的大数据云服务，包括 Amazon Elastic MapReduce（处理大量大数据）、Amazon DynamoDB（NoSQL 数据存储服务）和 Amazon S3（网络规模数据存储服务）。
Microsoft Azure 提供了一套大数据服务解决方案和工具。他们最受欢迎的产品包括 Azure Purview（统一数据治理）和 Azure Data Lake Storage（大型、可扩展且安全的数据湖）。

谷歌有大量的大数据云服务可以提供给他们的客户。他们的顶级解决方案包括 Google Big Query（用于大型数据集的快速 SQL 查询引擎）和 Google Prediction API（基于 ML 的大数据分析和学习）。

虽然我们了解将大数据迁移到云端的吸引力，但管理其性能的意义何在？好吧，在云中操作时有很多移动部分，并且有很多利益相关者参与这个过程：

这些只是利益相关者以及他们给方程式带来的复杂性。一旦添加了工具、APM 解决方案、遗留数据中心工具和自主开发的解决方案，它就会变得混乱。在云端，还有更多需要注意的地方。

那么，您如何理解一切并最终确保您的大数据以最佳方式运行呢？不是简单地收集更多数据。一个在提供可观察性和自动化的同时为您分析性能数据的工具就是解决方案。

没有良好的分析，数据是无用的。面对现实：您需要答案和解决方案，而不仅仅是更多数据。这就是提供可观察性和自动化的工具的用武之地。

可观察性让您了解事情发生的原因——而不是仅仅向您提供发生了什么。如果无法观察到您的集群，您就是在盲目飞行。解决应用程序问题需要更长的时间，由于缺乏洞察力而更有可能错过 SLA，并且几乎不可能调整工作负载的大小。因此，当您在寻找云性能管理解决方案时，请寻找能够提供可观察性的解决方案，而不仅仅是监控。在寻找可观察性解决方案时要问的关键问题是：

如果以上任何问题的答案是否定的，您将需要继续搜索。

从自动缩放到自主调优，自动化是优化大数据性能的最后一块拼图。手动调整今天不能削减它。即使是最有能力的团队也无法以所需的精度和速度手动调整每个应用程序和工作流，以跟上云中的规模。事实上，由于硬件资源、时间和精力的浪费，手动调整可能会降低您的投资回报率。

从云中的自动化中获益的另一个机会是自动缩放。虽然云因其可扩展性和灵活性而非常出色，但这可能是一把双刃剑，会导致毫无准备的人成本失控。为了解决这个问题，许多云提供商提供了减少浪费的自动缩放功能。然而，他们并不总能抓住一切。

常规自动缩放通常以较大的增量发生，但工作负载是动态的。他们可能需要更小的计算增量，或者需要比云提供商的自动缩放更快地扩展和缩减。这会导致可避免的浪费和额外成本。

下图清楚地显示了这一点。第一张图表显示了传统的自动缩放如何在整个运行时期间将集群增加到 100 个节点。但是，第二个图表显示了集群在运行时期间实际运行的内容。有时它只是一个任务，有时没有任务在运行。没有必要在整个持续时间内提供 100 个节点的自动缩放。

通过将可观察性与自动化相结合，您可以更好地跟上规模、缩短 MTTR 并提高投资回报率。自动警报会在问题发生时通知您，并且它们会提供可操作的见解，以便您可以快速解决问题。适当的自动缩放可以让您减少云中的浪费和失控的成本。自动计费机制使您能够更好地跟踪成本，自动调整确保部署的资源得到有效利用。这些都使您能够在不超出云预算的情况下跟上云中预期的规模。

当您在云端运行大数据并希望优化其性能时，可观察性和自动化是关键。如果不了解您的大数据性能，您基本上是盲目的。

Pepperdata 解决方案以自主调整、托管自动缩放等形式提供全栈可观察性和自动化，因此您可以确信您的大数据堆栈正在以最佳状态运行。

具有托管自动缩放功能的 Pepperdata Capacity Optimizer 提供云中所需的动态缩放大数据工作负载。与云服务提供商的自动缩放功能配合使用时，您可以进一步降低成本并获得高投资回报率。事实上，我们最近将 Capacity Optimizer 与 AWS Custom Auto Scaling 进行了基准测试，以了解我们提供了多少改进。我们发现，与 AWS Custom Auto Scaling Policy 搭配使用时，Capacity Optimizer 将云 CPU 利用率提高了 157%。

查看我们的白皮书可观察性和大规模持续调整，以了解有关可观察性和自动化如何影响大数据云性能管理的更多信息。

大数据云性能管理：如何做对

关注公众号“大模型全栈程序员”回复“小程序”获取1000个小程序打包源码。更多免费资源在http://www.gitweixin.com/?p=2627