云计算 – gitweixin

云计算 8月 28,2023

Dremio Cloud 评论：AWS 上快速灵活的数据湖屋

数据仓库和数据湖都可以保存大量数据进行分析。您可能还记得，数据仓库包含经过整理的结构化数据，具有在写入数据时应用的预先设计的模式，需要大量 CPU、SSD 和 RAM 以提高速度，并且旨在供业务分析师使用。数据湖包含更多非结构化或结构化数据，最初以原始格式存储，通常使用廉价的旋转磁盘，在读取数据时应用模式，过滤和转换原始数据以供分析，并且旨在供使用最初由数据工程师和数据科学家提供，一旦数据经过整理，业务分析师就可以使用这些数据。
数据湖屋，例如本次审查的主题 Dremio，弥合了数据仓库和数据湖之间的差距。他们从数据湖开始，添加快速 SQL、更高效的列式存储格式、数据目录和分析。
Dremio 将其产品描述为一个数据湖屋平台，供了解和喜爱 SQL 的团队使用。

根据 Dremio 的说法，Snowflake、Azure Synapse 和 Amazon Redshift 等云数据仓库会产生锁定，因为数据在仓库内部。我不完全同意这一点，但我同意将大量数据从一个云系统转移到另一个云系统确实很困难。

同样根据 Dremio 的说法，Dremio 和 Spark 等云数据湖提供了更大的灵活性，因为数据存储在多个引擎可以使用的地方。这是真的。 Dremio 声称由此产生的三个优势：
Dremio 的竞争对手包括 Databricks Lakehouse Platform、Ahana Presto、Trino（以前称为 Presto SQL）、Amazon Athena 和开源 Apache Spark。不太直接的竞争对手是支持外部表的数据仓库，例如 Snowflake 和 Azure Synapse。
Dremio 将所有企业数据仓库描绘成他们的竞争对手，但我认为这是营销，如果不是真正的炒作的话。毕竟，数据湖和数据仓库满足不同的用例并服务于不同的用户，尽管数据湖屋至少部分地跨越了这两个类别。

Dremio 服务器软件是适用于 Linux 的 Java 数据湖库应用程序，可以部署在 Kubernetes 集群、AWS 和 Azure 上。 Dremio Cloud 基本上是作为 AWS 上的完全托管服务运行的 Dremio 服务器软件。

Dremio Cloud 的功能分为虚拟私有云（VPC）、Dremio 的和您的，如下图所示。 Dremio 的 VPC 充当控制平面。您的 VPC 充当执行平面。如果您在 Dremio Cloud 中使用多个云帐户，则每个 VPC 都充当一个执行平面。
执行平面拥有多个集群，称为计算引擎。控制平面使用 Sonar 查询引擎处理 SQL 查询，并通过引擎管理器发送它们，引擎管理器根据您的规则将它们分派到适当的计算引擎。

Dremio 声称具有“反射”的亚秒级响应时间，“反射”是源数据或查询的优化物化，类似于物化视图。得益于 Apache Arrow，一种标准化的面向列的内存格式，Dremio 声称其原始速度比 Trino（Presto SQL 引擎的一种实现）快 3 倍。 Dremio 还声称，在没有指定比较点的情况下，由于 SQL DML、dbt 和 Dremio 的语义层，数据工程师可以在很短的时间内摄取、转换和提供数据。
Dremio 本身没有商业智能、机器学习或深度学习功能，但它有支持 BI、ML 和 DL 软件的驱动程序和连接器，例如 Tableau、Power BI 和 Jupyter Notebooks。它还可以连接到 Lakehouse 存储和外部关系数据库中表中的数据源。

Dremio Cloud 分为两个 Amazon 虚拟私有云 (VPC)。 Dremio 的 VPC 托管控制平面，包括 SQL 处理。您的 VPC 托管包含计算引擎的执行平面。
Dremio Arctic 是 Apache Iceberg 的智能元存储，Apache Iceberg 是一种用于大型分析数据集的开放表格式，由原生 Apache Iceberg 目录 Nessie 提供支持。 Arctic 为 Hive Metastore 提供了一种现代的云原生替代方案，由 Dremio 提供永久免费服务。

Arctic 提供以下功能：
Dremio 的大部分性能和功能取决于所使用的磁盘和内存数据文件格式。
Apache Arrow 由 Dremio 创建并为开源做出了贡献，它为平面和分层数据定义了一种独立于语言的列式内存格式，组织起来用于在 CPU 和 GPU 等现代硬件上进行高效的分析操作。 Arrow 内存格式还支持零拷贝读取，以实现闪电般快速的数据访问，而无需序列化开销。
Gandiva 是 Apache Arrow 的基于 LLVM 的矢量化执行引擎。 Arrow Flight 在 Apache Arrow 上实现 RPC（远程过程调用），并建立在 gRPC 之上。 gRPC 是来自 Google 的现代、开源、高性能 RPC 框架，可以在任何环境中运行； gRPC 通常比 REST 消息传输快 7 到 10 倍。

Apache Iceberg 是一种用于大型分析表的高性能格式。 Iceberg 为大数据带来了 SQL 表的可靠性和简单性，同时使 Sonar、Spark、Trino、Flink、Presto、Hive 和 Impala 等引擎可以同时安全地处理相同的表。 Iceberg 支持灵活的 SQL 命令来合并新数据、更新现有行和执行有针对性的删除。

Apache Parquet 是一种开源的、面向列的数据文件格式，专为高效的数据存储和检索而设计。它提供高效的数据压缩和编码方案，具有增强的性能，可以批量处理复杂数据。
据 Dremio 介绍，Apache Iceberg 数据文件格式由 Netflix、Apple 和其他技术巨头创建，支持任何引擎的 INSERT/UPDATE/DELETE，在开源社区中势头强劲。相比之下，再次根据 Dremio 的说法，Delta Lake 数据文件格式是由 Databricks 创建的，当在 AWS 上的 Databricks 平台上运行时，支持使用 Spark 的 INSERT/UPDATE 和使用任何 SQL 查询引擎的 SELECT。
Dremio 指出了开源版本的 Delta Lake 和在 AWS 上的 Databricks 平台上运行的 Delta Lake 版本之间的一个重要技术差异。例如，有一个允许 Trino 读写开源 Delta Lake 文件的连接器，以及一个允许基于 Scala 和 Java 的项目（包括 Apache Flink、Apache Hive、Apache Beam 和 PrestoDB）读写的库开源 Delta Lake。但是，这些工具无法安全地写入 AWS 上 Databricks 平台上的 Delta Lake 文件。
除了源自所用文件格式的查询性能之外，Dremio 还可以使用柱状云缓存和数据反射来加速查询。
Columnar Cloud Cache (C3) 使 Dremio 通过使用内置于云计算实例（例如 Amazon EC2 和 Azure 虚拟机）中的 NVMe/SSD 在 Amazon S3、Azure Data Lake Storage 和 Google Cloud Storage 上实现 NVMe 级 I/O 性能. C3 仅缓存满足您的工作负载所需的数据，甚至可以缓存数据集中的单个微块。如果您的表有 1,000 列并且您只查询这些列的一个子集并过滤特定时间范围内的数据，那么 C3 将只缓存您的表的那部分。根据 Dremio 的说法，通过有选择地缓存数据，C3 还显着降低了云存储 I/O 成本，这可能占您运行的每个查询成本的 10% 到 15%。
Dremio 的列式云缓存 (C3) 功能通过使用云实例中的 NVMe SSD 缓存先前查询使用的数据来加速未来的查询。

数据反射支持亚秒级 BI 查询，无需在分析之前创建多维数据集和汇总。数据反射是一种数据结构，可以智能地预先计算聚合和其他数据操作，因此您不必即时进行复杂的聚合和向下钻取。反射对最终用户是完全透明的。用户无需连接到特定的具体化，而是查询所需的表和视图，Dremio 优化器会选择最佳反射来满足和加速查询。

Dremio 采用多引擎架构，因此您可以为组织中的各种工作负载创建多个大小合适、物理隔离的引擎。您可以轻松设置工作负载管理规则，将查询路由到您定义的引擎，这样您就不必再担心复杂的数据科学工作负载会阻止高管的仪表板加载。除了消除资源争用之外，引擎还可以快速调整大小以处理任何并发性和吞吐量的工作负载，并在您不运行查询时自动停止。
Dremio 引擎本质上是配置为执行程序的可扩展实例集群。规则有助于将查询分派到所需的引擎。

Dremio Cloud 入门指南涵盖
我不会向您展示本教程的每一步，因为您可以自己阅读并在自己的免费帐户中运行它。

作者 east

云计算 8月 28,2023

站点可靠性工程：当今企业 IT 的当务之急

站点可靠性工程 (SRE) 正迅速成为现代 IT 运营的一个重要方面，尤其是在高度扩展的大数据环境中。随着企业和行业转向数字化并采用新的 IT 基础设施和技术以保持运营和竞争力，IT 团队需要一种新方法来找到和管理发布新系统和功能与确保这些系统和功能直观、可靠、对最终用户的友好程度也有所提高。

在过去几年中，对站点可靠性工程及其相关领域的兴趣激增。根据 LinkedIn 最近的一项调查，网站可靠性工程师被列为过去五年内增长最快的 25 个职业之一。但站点可靠性工程到底是什么？它如何影响数字企业完全满足甚至超过其服务水平目标 (SLO) 并实现其业务目标的能力，即使在大规模环境中也是如此？尽管没有完美的技术这样的东西，但拥有正确的流程可能会使世界变得不同。继续阅读以了解有关站点可靠性工程以及如何实施最佳实践以确保所有系统以最高效率和可靠性运行的更多信息。

什么是站点可靠性工程？

站点可靠性工程从软件工程的角度看待和处理 IT 操作。任务是持续监控 IT 系统、工具和功能，主要是它们的可用性、延迟、性能和容量。

站点可靠性工程师依靠软件来管理系统、查明问题并自动执行各种操作任务。 SRE 获取历史上分配给运营团队并由运营团队手动执行的任务，并将它们移交给站点可靠性工程师。然后 SRE 承担任务并利用自动化和标准化来解决问题并进一步提高整个生产系统的可靠性。

SRE 现在被视为创建和管理可扩展且高度可靠的软件系统的关键部分。借助 SRE，IT 团队和系统管理员可以通过代码管理和操作更大的系统。这种做法使他们能够扩展和维护数千或数十万台机器。

站点可靠性工程师做什么？

SRE 负责最大限度地提高计算机系统的可靠性和效率。 SRE 了解所有与计算机系统交互的人对该系统的期望，并努力满足这些期望。因此，SRE 充当软件工程和 IT 运营之间的粘合剂。 SRE 经常描述他们的工作是创造性地填补空白，让人们开心，从开发人员到最终用户再到管理团队成员。当您可以理所当然地认为您的所有系统都以最高效率和可靠性运行时，您就知道您的 SRE 做得很好。

站点可靠性工程师通常与 IT 运营和软件开发团队协同工作。 SRE 团队帮助 IT 运营部门提高其生产系统的可靠性。最重要的是，SR 团队可能会帮助 IT、支持和开发团队减少花在支持票和升级上的时间，从而使他们能够专注、开发和推出新的和改进的功能和服务。

企业任务站点可靠性工程师主动创建和实施旨在促进 IT 运营和支持的软件和服务。这可以从监控功能到在生产过程中代码发生变化时发送通知。 SRE 团队通常从头开始使用自己开发的工具，因为这使他们能够有效地处理软件交付或事件管理中的问题。

还可以部署 SRE 团队来处理支持升级。然而，随着系统的成熟，它们变得可靠。这样一来，生产中的关键事件就会减少，从而转化为支持升级的次数也会减少。站点可靠性工程师在软件工程和 IT 运营方面积累了如此多的知识，以至于他们自己成为了强大的支持团队，帮助组织将问题转给合适的人。

由于涉及软件开发和 IT 的许多方面，站点可靠性工程师还参与了部落知识的文档编制。 SRE 团队还执行文档后工作，例如持续维护和运行手册，以保持知识的质量和完整性得到更新和完整。

站点可靠性工程师通常承担随叫随到的责任。鉴于他们接触过工程和 IT 的各个领域，SRE 团队不断协作以提高系统可靠性并优化随叫随到的流程。

大数据环境中的 SRE 最佳实践

没有完美的 SRE 策略。任何站点可靠性框架都需要不断完善，以确保满足运营需求。以下 SRE 原则和最佳实践将帮助大数据组织根据他们的要求执行和定制他们的 SRE 策略。

站点可靠性工程师与 DevOps 工程师与软件工程师

站点可靠性工程师是专注于开发的 IT 专业人员，他们致力于开发和实施解决可靠性、可用性和规模问题的解决方案。另一方面，DevOps 工程师是专注于解决开发管道问题的运维人员。虽然这两个职业之间存在分歧，但两组工程师都会定期跨越鸿沟，向对方提供他们的专业知识和意见，反之亦然。

站点可靠性工程师保持他们的服务运行并可供用户使用，DevOps 涵盖从端到端的产品生命周期，目标是基于敏捷技术使所有流程连续进行。在整个产品生命周期中提供连续性是加快上市时间和实施快速变更的关键。

虽然站点可靠性工程师和软件工程师的角色在一定程度上重叠，但这两个职业之间存在重大差异。软件工程师设计和编写软件解决方案。在大多数情况下，软件工程师会将部署成本以及应用程序更新和维护成本考虑在内。

SRE 不是对操作了解一两件事的开发人员，也不是编写代码的操作人员。对于您的开发团队来说，这是一门全新的独立学科。 SRE 带来了部署、配置管理、监控和指标方面的专业知识。 SRE 专注于提高应用程序性能，使开发人员能够专注于功能改进和 IT 运营，从而专注于管理基础设施。当 SRE 积极参与时，开发人员和 IT 运营人员可以自由地做他们最擅长的事情。

什么是 SRE 框架？

站点可靠性工程框架基于以下原则构建。

SRE 创建各种框架模块，作为为特定生产领域设计的解决方案的实施指南。 SRE 框架本质上指导工程师如何实现软件组件以及集成这些组件的规范方法。

SRE 框架在效率和一致性方面为工程师和开发人员提供了多种好处。一方面，它们使开发人员不必以特定于服务的临时方式查找、拼凑和配置各个组件。

这些框架为生产问题提供单一解决方案，可在各种服务中重复使用。框架用户使用通用的实施规则和最小的配置差异来执行他们的生产和其他流程。

Spark 大数据应用程序的另一个示例是调整以减少或消除数据倾斜。数据倾斜导致某些应用程序元素的工作时间超过它们应有的时间，而其他计算资源则闲置，未得到充分利用。 Spark 对数据倾斜高度敏感，对于高度分布式和瘫痪的应用程序，它可能具有很大的破坏性。

一旦对计算机系统进行了最佳调整，SRE 最终可能会说：“我们所有的应用程序都在无故障地运行，并且我们始终如一地满足 SLA。”为此，SRE 需要正确的可观察性工具来帮助他们确定内存利用率、数据倾斜和其他可能出现的问题。

作者 east

云计算 5月 25,2023

IT 项目管理基础：衡量云的成功

最重要的 IT 项目管理基础之一是衡量成功。对于基于云的 IT 项目，这尤其复杂且重要。

当您在云中运营时，很容易超支、扩展速度过快或过慢、失去可见性或犯一系列其他错误。看一个 IT 云项目是成功还是失败是至关重要的。这种可见性使企业和项目管理公司能够确定他们做对了什么，哪里做错了，以及下次可以吸取什么教训。

公司如何通过定义然后取得成功来确保他们保持 IT 项目管理基础一致？

IT 项目是任何涉及与 IT 基础设施、云计算、本地服务、信息系统等相关的投资、实施和改进的业务。它代表了大量工作，可以包括 IT 的许多领域，例如 Web 开发、软件开发、数据库管理和网络配置等等。

IT 项目经理必须了解 IT 项目会影响多个部门和垂直领域。基于云的项目也是如此。 IT 云项目跨越不同的部门和团队。其中许多可能不会经常互动。

大型企业一旦开始涉及云的 IT 项目，许多部门需要循环：安全、合规、销售等。独立的部门需要联合起来以实现整体 IT 目标。因此，一个成功的 IT 项目可以推动整体增长；失败的一个可能对整个组织有害。

IT 投资，尤其是在云计算方面的投资，已大幅增加，到 2021 年底，支出将达到近 4 万亿美元。有如此多的资金和资源专门用于 IT 云项目，了解投资回报率至关重要。这就是衡量项目成功与否的主要 IT 项目管理基础之一。

此外，随着数据收集和分析变得越来越普遍，衡量云 IT 项目的成功为所有相关方提供了一个更大、更清晰的画面，包括业务中的工作、偏离目标的内容、可以改进的内容等等。

通过从以往的成功和失败中吸取教训并将其整合到未来的项目中，您和您的团队能够减少错误，做出更准确的项目预算分配，有效地管理您的费用，实现您的项目目标，并交付预期的结果.整个组织以各种重要方式成为更精明的云用户。

由于 IT 项目的成功是 IT 项目管理基础的关键，因此了解如何衡量成功非常重要。在评估 IT 云项目是否成功时，这些 IT 项目管理指标是关键：

1. 时间表：每个 IT 项目都有一个时间表或时间框架。项目经理和团队的目标是在该时间范围内交付和移交项目，并证明他们能够准确估计完成给定项目所需的时间。

2. 生产力：这一特定指标表明资源管理在 IT 项目中的重要性。项目经理必须评估其团队对资产的整体利用率。团队是否最大化了他们的资源？他们在项目期间是否有效？总工作量是否符合预算工作量？对这些问题的积极回答意味着对底线的积极影响。未能最大限度地利用资源会导致巨大的经济损失。每年，公司都会因为闲置和未充分利用的计算资源而损失 88 亿美元。

3. 预算：许多高管将预算和成本管理列为项目的最高优先事项，因此评估项目在财务上的表现至关重要。简而言之，您是否设法将项目费用控制在预算范围内，还是超支了？对于许多企业来说，预算是一个棘手的领域。我们的 2021 年大数据云技术报告发现，对于 40% 的企业而言，云支出预计会超出预算 40% 或更多。

4. 质量和满意度：质量控制是一种关注客户及其满意度的 IT 项目管理指标。整个项目每个阶段的工作水平都应该很好，从而产生符合甚至超过标准和期望的高质量交付物。

5. 投资回报率 (ROI)：ROI 是另一个关键的 IT 项目管理基本指标。通常，项目的最终目标是通过增加利润为组织做出贡献。管理人员使用 ROI 来确定项目是否会产生积极的回报，并根据项目的财务损益与项目总成本来确定项目是否具有业务价值。

每个项目通常都有不同的目标。适用于一个企业或一个业务部门的 IT 项目管理指标可能不适用于另一个企业。因此，根据您企业的独特需求定制指标和报告非常重要。

您现在能够更快地运行 Spark 作业了吗？或者在特定时间内有更多的 Spark 作业？停机时间是否低于某个阈值？

这些可能是适合您的问题，或者完全不同的指标可能是合适的。如果 IT 项目管理指标根据您企业的独特需求精心定制，则量化和衡量项目成功要容易得多。

自云计算出现以来，IT 云项目激增。在提高业务效率、提高数据安全性和减少运营支出的承诺的推动下，许多企业被鼓励将其流程和应用程序迁移到基于云的环境。

87% 的企业现在实施混合云战略，而 93% 目前实施多云方法。令人惊讶的是，大多数企业迁移到云端是为了“更好地优化他们现有的云资产”。

大型 IT 云项目代表着时间、资源、金钱和努力的投资——所有这些都具有隐含的可衡量的投资回报率。使用项目管理系统来跟踪和衡量 IT 云项目的成功势在必行。然而，完全利用本地工具来管理项目是违反直觉的，因为这种方法变得越来越过时，并进一步增加了 IT 项目的预算和支出。

选择基于云的项目管理解决方案有望取得更大的成功。除了明显的成本效益外，在云中管理项目还为项目经理和团队提供了在本地应用程序中无法获得的灵活性和可扩展性。基于云的项目管理解决方案使用户能够根据需求变化扩展团队或添加新功能。

项目管理团队现在是分散的，不再局限于办公室。拥有云托管应用程序可确保他们能够随时随地访问它，这样他们就可以与其他成员同步工作。

项目是有时间限制的努力。一旦 IT 项目到达其生命周期的终点（或未能到达终点），只需考虑三个步骤：终止、延期或过渡。

在项目的所有权和责任正式移交（或部门）之前，项目经理必须进行项目收尾。收尾是另一个重要的 IT 项目管理基础。

项目管理的最后阶段使项目团队能够重新审视项目，确保满足所有项目，并为未来的 IT 计划收集和存储尽可能多的信息。

可靠的项目收尾清单包括以下步骤：

利益相关者可能会发表评论。接受他们并向他们学习。他们的评论是 IT 项目管理基础，因为这些将帮助您在未来交付更好的项目。

每个 IT 项目都需要开发人员提供持续的 IT 支持，尤其是在过渡、入职、培训、错误、修复和更新方面。 IT 供应商可以根据他们的合同协议提供免费的基本 IT 支持或高级支持服务。

交付 IT 云项目后，您和您的团队就需要确保从云投资中获得最大价值。云托管的基础架构、流程和应用程序无疑可以加速任务、提高效率并简化产品周期等。

然而，80% 的企业最终花费超过了他们最初的云预算。为什么？他们未能优化其云基础架构性能和成本。 IT 云项目旨在减少您的运营开支，而不是增加运营开支。但您需要深入了解您的云 IT 项目，看看问题出在哪里。

作者 east

云计算 5月 24,2023

适当调整工作负载以在云中取得成功

IT 和运营团队的任务是制定一项战略，以确保组织通过基于云的服务取得成功。当他们将工作负载迁移到公共云后，承诺的效率和节省没有实现时，他们常常感到失望。 Bain & Company 的一份报告，Rightsizing Your Way to the Cloud，包括对 60,000 多个工作负载的分析结果。贝恩咨询了 350 多位 IT 决策者，他们的云部署的哪些方面最令人失望且未达到他们的期望。抱怨最多的是拥有成本没有下降。在某些情况下，成本增加了。为什么没有达到预期？

该报告发现，当公司不执行必要的评估和准备时，将工作负载迁移到公共云的成本可能比将它们保留在遗留的本地环境中高出 15%。换句话说，尽管云计算的前景十分可观，但保持不变可能更具成本效益。

问题？现有的低效率正在转移到云端

Bain 的分析显示，84% 的本地工作负载被过度配置，其计算能力、内存和存储超出了高效运行所需。当 IT 运营购买的硬件多于确保它们具有足够的性能来满足工作负载需求高峰期所需的硬件时，任务关键型工作负载通常会发生过度配置。这包括使用更多装有硬盘驱动器的服务器进行横向扩展，以增加计算能力并最大程度地减少延迟。虽然硬盘驱动器成本合理，但像这样的大规模横向扩展会增加电力、冷却和管理成本。

当组织对基于云的服务采用这种方法时，他们会随之发送多余的计算和存储容量。他们并没有提高效率，而是使用一种称为“提升和转移”的方法，将现有的低效率转移到一个新的位置。贝恩发现，剥离多余的资源容量可以将云迁移成本降低多达 60%，同时降低在云中运行工作负载的长期成本。其他 IT 咨询专家也同意这一观点。根据 Forrester Research 最近的一项云成本优化研究，解决浪费的云使用和激增的云支出是云管理重要的第一步。

解决方案？合适的尺寸

调整工作负载大小涉及重新评估其所需的真实存储量和计算能力。为确定这一点，组织可以监控一段时间内的工作负载需求，以确定平均和峰值计算资源消耗。预期迁移到基于云的服务的组织应采取严格的方法来调整其工作负载，包括对整个企业的计算和存储实践进行全面评估。贝恩的经验表明，适当调整 IT 资源规模可以将运营和资本支出削减多达 30% 至 60%。

云迁移是一个长期过程，而不是一个事件

云迁移是一个长期过程，对于大规模、横向扩展的 Hadoop 和 Spark 分布式计算环境来说可能会持续数年。大多数组织一次迁移一个工作负载/应用程序。并非每个工作负载都属于云，组织将希望评估哪些是合适的候选者。由于涉及多个预迁移步骤，完成将工作负载实际迁移到云的任务需要时间。在迁移过程中，许多工作负载仍在本地运行。在可预见的未来，不适合云计算的工作负载将保留在本地。

作者 east

云计算 5月 23,2023

开始获得实时性能数据的优势

IT 基础架构服务需要不断调整和优化以维护 SLA，同时最大限度地提高您的投资。大数据的出现和随后的使用在这方面提供了巨大帮助。实时性能数据是最大限度发挥大数据力量的下一步发展。

虽然实时性能数据现在对现代企业的成功至关重要，但许多组织尚未完全由数据驱动。在 NewVantage Partners 最近的大数据和人工智能高管调查中，69% 的受访者表示他们尚未建立数据驱动的组织。在同一项研究中，72% 的受访者表示他们没有现成的数据文化。最重要的是，超过一半的参与者表示他们不将数据视为商业资产 (53%)，并且不在数据和分析方面展开竞争 (52%)。

然而，随着消费者需求的增长和资源需求变得更加复杂，企业现在必须接受实时性能数据，以确保他们的 IT 架构能够跟上发展并且运营成本保持在可控范围内。

每个系统、流程、工作流和应用程序都会生成内部实时性能数据。为了提高效率和降低成本，企业利用这些数据来查看哪些任务运行缓慢，问题出在哪里，并消除瓶颈。

数据越新鲜，您就能越快地识别和解决问题。这导致更高效的流程和更快的决策制定。当来自系统、工作流和任务的数据可立即用于实时性能分析时，它们得出的见解质量更高且更具可操作性。

实时性能数据之所以强大，是因为它提供了最新的信息来改进优化工作、增强决策制定过程并实现更深入的调试、故障排除和规划。

速度是实时分析和数据处理的主要优势。企业及其 IT 团队无需等待数小时或数天才能处理和分析其性能数据。快速、实时的分析和数据处理为他们提供了执行必要调整、做出关键和战略决策以及在需要时启动干预所需的可靠信息。

应用程序数据的实时性能分析使您能够充分利用基础架构。通过对应用程序性能的实时观察，您可以快速收集来自所有层和堆栈的所有信息，并创建一个完整的画面。您会立即明白为什么您的应用程序会以它们现在的方式运行。您还知道如何快速果断地解决问题，将停机时间限制在最低限度，并确保为您的应用程序维护 SLA。

除了对您的 IT 基础设施、应用程序、工作流和流程进行快速可靠的观察之外，实时分析和数据处理还可以帮助预测资源消耗，从而允许用户为每个应用程序和任务分配适量的资源。在具有可扩展性和机器学习 (ML) 功能的 IT 堆栈优化系统中，实时性能分析有助于自动为应用程序和工作流分配和部署资源，以确保它们以最佳水平运行。

相当多的企业仍在使用过时的解决方案，几乎没有实时数据功能。这意味着他们的数据不会不断更新，也不是为与现代系统集成而设计的。数据变得停滞、孤立和无用。

对于某些组织而言，由于缺乏更新和更先进的绩效管理工具，他们需要手动收集和管理绩效数据。因此，分析和优化无法完全自动化。

如果依赖手动调整，数据的“实时新鲜度”将被浪费。要充分利用实时性能数据，企业需要同时利用自动优化和机器学习。

通过自动优化，该解决方案对整个 IT 基础架构中的所有数据执行实时性能分析。然后，该解决方案使用最理想的配置和资源数量自动扩展资源并运行应用程序和任务，以维护 SLA，同时降低成本。

作者 east

云计算 5月 23,2023

如何获得批准的项目的云 IT 预算

公司的 IT 预算就像汽车的燃料。就像汽车不会从空油箱开始一样，没有资金就无法启动 IT 项目。

但是，要获得批准的项目需要制定适当的预算计划。预算管理需要仔细规划和审议，需要考虑很多因素：材料和设备成本、人力资源和收入。此外，公司通常不会考虑优化工具，而优化工具应始终包含在 IT 项目预算中。

团队如何制定有效且令人信服的 IT 预算计划，将所有相关变量都考虑在内？

项目预算是项目必须实现的每项活动、任务和里程碑的综合成本。在编制预算时，公司必须始终将 IT 支出占收入的百分比考虑在内，并且必须找到一种方法为未来的项目预留大量资金。

创建 IT 项目预算的三个基本原因：

IT 项目可分为 CapEx（资本支出）或 OpEx（运营支出）项目。 OpEx 项目涉及正常业务期间产生的费用，其中包括一般和管理费用、研发和产品成本。同时，资本支出项目涉及购买新资产，如设备和设施，这将为公司带来长期利益。

对于 SaaS 行业，资本支出项目更常用于购买物理服务器和设施以支持本地基础设施。相比之下，由于云服务提供商采用的 OpEx 业务模型，OpEx 项目通常被云原生或混合基础设施公司使用。

如果监控不当，运营支出成本可能对 SaaS 公司造成毁灭性打击。在此处了解更多信息。

尽管 CapEx 和 OpEx 业务模型在方法上有所不同，但在使用任何一种模型进行预算规划时都应小心谨慎。对于云项目尤其如此。

如果忽视仔细的规划，在云中运营的企业将面临成本失控和资源浪费的危险。由于过度配置的资源和未优化的集群，许多基于云的公司从他们的云供应商那里经历了非常昂贵的云账单。

那么如何制定 IT 项目预算呢？

第一步是制定预算，从基层仔细考虑开始。需要多少收入？您正在为哪些任务制定预算？是否有您需要达到的里程碑？可以启动哪些新举措？创建一个范围并写下您的团队需要做的所有事情。

典型的 IT 预算细目包括以下内容：

不要忘记，在 Covid 之前或之后：

在您将项目计划提交给最终决策者之前，请考虑由经验丰富的人来执行，他们可以为您提供诚实的反馈。然后，在寻求最终批准之前，花点时间。这是 AT&T 高级全源空间/反空间情报分析师 Charles W. McBride：

“抛开预算，在预算上睡一晚，当你精神焕发时，再次仔细查看每一个数字，问一个简单的问题：我/我们错过了什么？我们都会时不时地错过一些东西，有时是大的，有时是小的。努力花适当的时间来始终仔细检查所有预算假设。你的名声和血压以后会感谢你的。”

在利益相关者审查后，您还可以在最终批准之前让会计师或可信赖的同行查看项目的 IT 预算管理。

预算批准后，就该执行项目了。实施 IT 项目预算与联邦政府的做法不同，在联邦政府中，扣押资金是防止超支的一种规范。对于企业主，您可以根据收入调整业务策略以应对支出增长。

American Recruiting & Consulting Group 的全球转型负责人兼高级项目经理 Neil Woodger 建议企业主“确保你有非常强烈的要求，并且他们得到完全同意和签署。随着项目的推进，范围蔓延是预算的最大消耗者。”

请记住：良好的预算不会限制您公司的支出。相反，它是贵公司战略和战术的财务体现。

完美计划的预算仍需接受审计和重新评估。预算也可以根据需要进行修订，以添加修订，例如收入变化、成本调整或任何其他必要信息。您需要密切关注如何有效地花钱，同时确保企业盈利。

持续的风险评估也是必要的。 “项目经理需要定期重新评估风险并相应地更新预算，”采购主管兼学术研究员 Taoufik Samaka 说。 “有条不紊的风险管理方法将帮助您涵盖与所有项目过程组相关的风险（最重要的是：范围、进度、成本、质量、资源、利益相关者）。”

IT 项目预算实施的重新评估阶段还突出了业务运营中经常被忽视的方面：优化。组织应该投资于优化工具，以提高 IT 项目预算的效率。

从优化的角度来看，更优化的系统会为预算管理留下更多资金，并为进一步的项目留下更多机会。而且，优化工具还可以让企业花更少的钱做更多的事情。

以 Pepperdata Suite 为例。 Pepperdata Suite 为大数据分析堆栈提供可观察性和自动优化。它允许您运行更多应用程序、跟踪您的支出并管理成本。我们的一些客户甚至在基础设施方面节省了 1000 万美元以上。

但 Pepperdata Suite 的另一个好处是吞吐量自动提高了 50%。换句话说，Pepperdata 使企业能够通过更有效地利用集群和知识生成来提高收入增长。

投资者更喜欢看到收入增长，因为稳定或萎缩的收入可能意味着公司将随着时间的推移而萎缩。这就是为什么增加收入和总收入的前景使优化工具成为预算的重要部分。此外，从高效运行的集群中收集的数据为组织提供了竞争优势，从而带来更多创新和更多获取收入的方法。

作者 east

云计算 5月 20,2023

构建现代数据堆栈

由于近 90% 的组织正在执行多云战略以将其数据和分析工作负载迁移到云端，因此“现代数据堆栈”一词继续获得更多关注。

现代数据堆栈是一套技术和应用程序，专门用于将数据汇集到组织中，将其转换为可操作的数据，制定针对该数据采取行动的计划，然后实施该计划。

大多数现代数据堆栈都建立在基于云的服务之上，这些服务由低代码和无代码工具组成，使组织内的各种团队能够探索和使用他们的数据。

继续阅读以了解如何优化您的数据堆栈，并观看来自 Airbnb、Autodesk、Capital One、Meta、T-Mobile、Uber 和其他领先数据驱动公司的行业专家讨论征服现代数据堆栈。

为什么现代数据堆栈在今天很重要

大数据堆栈技术现在几乎为每个组织提供了利用数据的能力，而无需大量的前期成本。传统上，投资数据需要大量时间和资源来构建、管理和维护必要的 IT 基础架构。如今，创建现代数据堆栈不会遇到这样的障碍，并且可以在不到一天的时间内完成。

当组织对其数据堆栈进行现代化改造时，员工的生产力和效率就会提高。因为他们可以分析大量原始数据并获得高度可行的见解，所以组织能够创造和最大限度地提高内部效率，消除运营瓶颈，加速决策制定并推动创新。简而言之，组织能够构建和集中统一的高价值数据资产，该资产易于访问并可用于在整个业务中推动价值。

五阶段构建过程

要构建现代数据堆栈，您需要关注每个阶段，并使用适合您的要求、目标和其他独特需求的工具来填充它。选择集成就绪的工具，因为这将简化您的工作流程。

现代数据堆栈是当今组织的重要组成部分，需要企业接受许多变化，包括采用新兴技术或改变运营模式。执行不力、未优化的云性能管理和其他战略失误可能代价高昂且存在风险。

然而，并非市场上所有的性能优化工具都具有企业级可见性并提供超出表面指标的可观察性。如果没有可见性，企业将面临为其数据堆栈过度配置资源并最终导致比预期更多的云成本的风险。

征服现代数据堆栈

他们说现在可以比几年前更快地从头开始构建数据堆栈。虽然这可能是真的，但处理现代数据堆栈并不是一件容易的事情。好消息是，您有机会向行业专业人士学习如何征服现代数据堆栈。

2022 年数据堆栈峰会包含有关现代数据堆栈各个方面的大量信息。查看它，向大数据技术专家学习，包括我们自己的 Pepperdata 董事会主席 Ash Munshi，以及来自 Airbnb、Autodesk、Capital One、Meta、T-Mobile、Uber 和其他领先公司的专家。

所有虚拟会议均按需提供，并探索数据堆栈技术和其他将震撼我们视野的创新的存储内容！

作者 east

云计算 5月 20,2023

在内部部署到云迁移过程中需要考虑的三个关键事项

许多公司正在应对从本地迁移到云的挑战。虽然这些公司意识到从本地数据基础设施的资本支出模型转变为云的运营支出模型的好处，但他们中的许多人未能充分考虑到这种转变。结果，他们最终超支或未优化性能。

这种漫不经心的前景可能会让您的公司在未来感到头疼。我们的建议：消除云迁移中的猜测。以下是您在上云过程中需要注意的三个方面：

在云迁移过程中，您需要决定的第一件事是什么应该保留在本地，什么要迁移到云端。

如果您是一家大型企业，您可能有一整套复杂的应用程序在各种数据中心运行。也许您对一个数据中心有长期租约，或者您的团队中有一些特定成员坚持要将某个应用程序或系统迁移到云端。无论如何，您应该知道哪些可以移动，哪些最好保留在本地。

一旦你决定，作为从本地到云迁移的基础，你可以进行提升和转移，或者你可以完全重写你的架构以使其成为云原生的（这需要很多工程工作）。您需要利用云供应商提供的某些服务。您甚至可能需要结合使用两者。

其次，您需要决定要使用您选择的云供应商提供的服务。云供应商提供大量服务，虽然很想从每一项服务中获益，但我们建议您只选择必要的服务。使用超出您需要的方式可能会成为维护支持的长期噩梦。

如果您在云迁移过程中不小心，您可能会在不知不觉中放弃在各种服务和提供商之间进行选择的自由。供应商锁定是指你被困在特定供应商的整个堆栈、服务和功能中，如果你不采取措施避免这种情况，很容易陷入困境。为了避免这种情况，您在选择云提供商或他们的服务时必须小心谨慎，因为它确实会限制您以后可以做的事情。通常，公司会选择多云方法来尝试避开这个陷阱。

定价和账单一旦出现，就会让人们在第一次进行本地到云迁移时感到最惊讶。这个问题有两个部分：(1) 现有应用程序的成本，以及 (2) CapEx 到 OpEx 的转变。

当涉及到现有应用程序的成本时，它们可能非常难以计算。很难，但并非不可能。关键是弄清楚您的本地应用程序当前使用什么——多少内存？中央处理器？数据传输量？这就是正确的监控应用程序真正增加价值并让您深入了解您今天运行的内容的地方。

关于 CapEx-OpEx 转变：以前，在 CapEx 模型中，只有组织某些部分的某些人知道成本的真实情况。但是现在，几乎公司内的每个人都可以在一个电子表格和账单中轻松地看到他们的钱去了哪里。

虽然 CapEx 模型由于限制了工程师的能力而让工程师感到沮丧，但它也是一个很好的成本限制器。在云迁移阶段完成后，在 OpEx 模型中，他们没有限制让您的工程师足智多谋，而是在没有限制的情况下开始和扩展。所以他们扩展到大量机器并运行他们能想到的所有测试。接下来你知道，单一灵活性的账单到了，而且是巨大的。

总而言之，请务必记住，OpEx 为您提供的灵活性是一把双刃剑。当您迁移到云端时，设置控制系统和可见性至关重要。

作者 east

云计算 5月 18,2023

云迁移挑战：迁移后

每个人要么已经迁移到云，要么正在迁移到云。云提供了节省成本以及可扩展性、可靠性和敏捷性的承诺。云迁移的一些挑战在迁移工作之前就已经出现了。但其他云迁移挑战出现在第二天，即成功完成迁移后的关键阶段。

组织希望在促进业务增长的同时降低成本。当成本降低时，资金和其他资源就会被释放出来，使组织能够将它们用于其他优先事项，这些优先事项可以增加利润并在满足时推动进一步增长。迁移到云为企业提供了同时享受成本节约和业务增长的机会。

但组织也希望在迁移到云完成后做出数据驱动的决策。他们希望在企业的每个部分创建数据驱动的环境。几项调查一次又一次地揭示了这种情况。成为真正的数据驱动意味着采用新技术、新方法、新分析和新工具。这就是 IT 团队利用基于云的数据库、数据湖环境等的原因。

事情是这样的：数据驱动的工具对于云迁移挑战和任何其他类型的业务挑战一样有用。

云迁移之旅不是一个单一的事件。它实际上更像是一个迭代和增量过程。企业有时会像迁移一次一样处理云迁移。但从某种意义上说，它一直在发生。迁移完成后出现的云迁移挑战需要继续消除。

通常，在成功迁移之后，企业会对管理云基础设施和云流程所付出的努力感到震惊。更不用说，他们不切实际的投资回报率预期没有得到满足。当被问及他们期望何时获得云迁移投资回报时，几乎三分之二的人在几个月内回答，如果不是几周或几天的话。

但是，它通常需要比这更长的时间。云迁移的投资回报率可能较慢，并且需要持续努力。设定企业级期望可能很棘手，但企业需要保持期望切合实际。他们需要接受，在几个周期之后，你才能真正掌握在云中的窍门。只有这样，您才能真正开始收获收益。

这是第 2 天云迁移的另一个重大挑战。成本通常是企业希望首先进入云的主要原因。然而，一旦企业进入云计算，他们就会发现管理云支出是一个主要问题。从 IT 的角度来看，这是一个挑战。他们如何在不限制业务需求的情况下限制使用？

许多企业最终都遭遇了账单冲击，因为他们没有预料到云成本会如此之高。他们发现自己超出了云预算。

在不妨碍对云资源的访问的情况下控制云支出的一项有效措施（尽管存在争议）是实施扣款政策。这是对部门在特定时间段内消耗的技术和资源收费的时间。

这是非常有效的，因为部门要对他们使用云服务负责。此举还让 IT 管理员了解如何利用云资源。然而，这是有争议的，因为大多数业务部门不为使用公司资源和公用事业计费。

当人们第一次听说云的优势时，他们认为整合数据和逐步淘汰硬件在支出方面都是有利的。但实际上，迁移之后，成本通常会攀升。你可能有效率，但享受这些效率需要资源。资源就是金钱。因此，您组织中的人们陷入了战争与和平的局面，争论如何管理成本。谁得到它？谁没有？谁可以消费它？哪些产品、工作和项目可以优先使用其中的一些资源？

组织需要做的是在环境中使用不同的工具、优化工作和产品，以通过可见性和洞察力匹配并帮助降低这些成本。

一旦进入云端，组织就可以采用数百种工具、服务数据库和其他东西。数据平台内的产品前景广阔。第二天，企业需要立即分配资源和专业知识，以确定如何在新技术环境中最好地装备自己。他们需要弄清楚如何控制浪费。

在云中运行业务流程的另一个复杂方面是云支出的浪费。闲置或未使用的资源、超大的基础设施和资源集中等因素会导致云浪费。

仅在 2019 年，云浪费造成的损失就达 141 亿美元。为了防止这些损失，组织必须准确估计他们的资源需求并增加额外的容量，而不是批量购买资源。主动监控或关闭未使用的云环境也有助于减少浪费。利用 AI 支持的云优化工具非常适合维护多个环境的用户。随着工作负载的波动，这些工具将自动扩展其云基础设施。

转移到云端需要大量的改变。事实上，抵制这种变化的组织将经历一系列不同的新的和意想不到的挑战。您可以将这些更改强加于您，也可以接受它们。无论哪种方式，在云中操作都意味着您无论如何都必须进行更改。云计算空间正在不断发展。你越是意识到这一点并接受这些变化，从长远来看，你的组织就会越好。

Rackspace Hosting 2013 年的一项研究反映了这一思路。在 1,300 名企业受访者中，有 88% 的人表示迁移到云为他们节省了资金，而 56% 的人确认这增加了他们的利润。有了正确的战略和正确的工具，迁移到云可能是任何企业都经历过的最好的事情。他们需要做的就是在第 2 天的云迁移挑战中生存下来，并弄清楚如何从“迁移”过渡到“运营”，同时应对两者之间的颠簸和阶段。

作者 east

云计算 5月 15,2023

大数据分析调优是 IT 转型的关键

大约 70% 的全球企业已经启动或计划启动某种形式的 IT 转型，这是有充分理由的。进行各种形式的 IT 转型的企业实现其最高业务目标的可能性比同行高 64%。

但 IT 转型不仅仅是实施 DevOps 模型。企业需要一个全面的战略和计划。在制定计划后，他们需要对现有的关键 IT 基础设施进行现代化改造，以提高运营支出和管理开销方面的效率。

大数据分析堆栈的自动调整极大地促进了所有形式的 IT 转型。在我们最近关于 IT 转型的电子书中，我们将自动调整和优化作为正确转型所需的重要原则之一。

无论您仍在本地并计划迁移到云端，还是已经在云端，都有一个令人不安的事实：企业组织使用的计算量通常比他们预期的要多得多。 Gartner 预测，“到 2020 年，由于缺乏成本优化方法，80% 的组织将超出其云 IaaS 预算。”这意味着大多数公司都面临过度配置和超支的风险，尤其是当他们不采用成本优化时。超出预期的支出是任何 IT 转型的糟糕开端。

一个很大的原因是公司没有工具来提供对云应用程序性能和大数据分析堆栈的完整和可操作的可见性（尽管这两者对于任何 IT 转型都至关重要）。 APM 工具可以让您对数据应用程序有一定的了解，但如今，仅进行监控是不够的。公司真正需要的是建议和自动调整，以纠正性能问题并优化现有资源。你需要行动，而不仅仅是观看。

为了促进有效的 IT 转型，用于管理应用程序工作负载、查询、消息流和性能问题的解决方案需要敏捷且果断。这些解决方案必须具有保持所有工作负载以优化速度运行所需的深度可见性。否则，它们会对 SLA 以及应用程序和工作负载性能产生不利影响。

作者 east

云计算 5月 15,2023

大数据趋势推动的 IT 运营新职业

大流行迫使许多组织重新考虑其 IT 运营。企业领导者已经意识到，要实现弹性和业务连续性，他们需要加快数字化转型，从而增加对 IT 和其他新兴技术的依赖。这些技术中的关键是云和大数据工具。

因此，IT 运营领域的新职业正在兴起。这些职业包括致力于帮助公司采用云计算和大数据技术的角色。随着越来越多的组织将重点放在此处，企业拥有在未来几年蓬勃发展所需的技术和工具将变得至关重要。

IT 运营或 IT Ops 是指由组织的 IT 部门执行和管理的一组服务和流程。总体术语通常包括所有 IT 资源的利用和管理，例如硬件（计算机、笔记本电脑、网络设备等）、软件（软件许可证、应用程序、在线服务等）和人员（IT 经理、技术人员、数据科学家等）。

IT 运营人员承担多种角色，从内部 IT 流程（如技术管理、质量保证、网络管理、设备管理和基础设施管理）到外部和面向客户的运营（如为其 IT 产品和服务提供支持和专业知识）。

企业技术的现代化一直是 IT 运营的主要关注点，尤其是当他们的组织面临落后于竞争对手的风险时。 IT Ops 还为其他部门提供指导，特别是传达获取当前和新兴技术以取代旧技术的需求。

就 IT 运营职业而言，最重要的趋势可能是向云的巨大转变。大多数公司已将其关键业务运营和应用程序迁移到云端。 IBM 最近的一项研究表明，95% 的 IT 领导者计划采用多种云战略，以加速其 IT 现代化计划。

这些公司需要大数据堆栈来保持其 IT 基础设施和流程平稳运行，并充分发挥效益以产生可观的回报。随着其对企业的作用和影响呈指数级放大，IT 运营正在经历前所未有的繁荣。

随着该领域变得越来越复杂和细分，IT 运营领域的新职业正在涌现。 IT等相关技术的进步催生了DevOps（开发运营）、DataOps（数据运营）、MLOps（机器学习运营）等多种运营模式。

IT Ops 的现有定义已经变得广泛和过时，因为各个部门现在都有自己的 IT 流程和规则。现代业务的快速发展、不断变化和不断进步的技术以及加快对独特业务需求的反应时间的明显需求需要新的和独立的运营方法。

虽然按定义和目的分开，但这些方法或运营模型仍然通过 IT 相互连接。例如，DevOps 将 IT Ops 与软件应用程序开发 (R&D) 和质量保证 (QA) 的最佳实践和方法相结合。

云计算使企业能够根据需要为 IT 服务付费。大规模云迁移已将 IT 支出从资本支出 (CapEx) 转移到运营支出 (OpEx)。随着企业迁移到云端，他们抛弃了数据中心、物理服务器和其他昂贵的网络设施和设备，转而采用灵活且可扩展的云托管基础架构。

然而，从管理良好的资本支出模型转变为极其流畅的运营支出支出模型存在挑战。一方面，云环境在很大程度上是分布式和分散的。这使得财务团队很难始终保持监督。如果没有可靠的治理和监控，企业很容易对其云支出管理不善并积累不可持续的成本。企业必须想出一个可持续的云支出模型来帮助管理支出并确保成功和安全的过渡。 IT Ops 可以在正确过渡方面发挥重要作用。

随着企业努力提高 IT 支出的透明度，准确的退款将成为未来的常态。组织将实施可持续支出模型，其中包括一个记录系统，该系统允许根据用户消费对 IT 服务进行精细成本核算。通过跟踪用户的资源和服务消耗，IT 部门可以为其他业务部门提供准确和透明的云账单。

IT 运营团队对于准确了解计费框架至关重要。

业务格局发生了变化，IT 需求也发生了变化。

也许最大的变化是 IT 不再单独负责生产和开发。其他运营模式已经出现。他们的职责和职能现在与传统 IT 团队重叠。特别是当业务部门正在创建自己的应用程序并更多地支持自己时。 IT Ops 现在几乎是任何处理数据的工作的一部分。

此外，机器学习 (ML) 和人工智能 (AI) 的日益普及和采用是 IT 世界的主要趋势。商业组织越来越依赖人工智能和机器学习来执行重复性任务。

到 2022 年，20% 的员工将使用 AI 来完成他们的工作。到2025年，人工智能将完成50%的数据科学家任务，有效解决专家严重短缺的问题。

这些巨大的变化为 IT Ops 的职业生涯提供了新的途径。 IT 专家现在享有多种机会来接受新的工作方式以及与其他部门的整合。 IT Ops 仍然可以通过拥抱新技术趋势前沿的新角色为组织增加价值。

数据和分析经理。顾名思义，数据和分析经理负责管理数据和分析卓越中心。该职位需要支持整个企业的数据和分析交付。他们还被要求为数据和分析的战略和愿景做出贡献，制定路线图，与高级利益相关者沟通，并承担资源和预算的责任。除了衡量团队绩效外，数据和分析经理还跟踪和监控数据和分析对其业务目标的影响。

数据工程师。数据工程师的任务是寻找数据集中的趋势和机会。他们构建算法来简化对原始数据的访问。他们还寻找从符合企业或客户目标的原始数据中获取价值的方法。

数据工程师的另一个职责是优化数据检索并为利益相关者提供理解数据的方法，例如仪表板、报告和其他可视化。

较大的企业通常在其花名册中拥有多名数据科学家或分析师，以帮助解释和交流数据。但是在这个小企业现在可以访问数据的新环境中，数据工程师可以同时扮演这两个角色。

数据分析师。数据分析师是那些在统计分析方面拥有丰富经验和知识的人，他们能够找到有助于支持其业务特定方面的见解。通常，他们是领域专家，或者与领域专家密切合作，利用他们发现的见解寻找改进业务流程和功能的方法。

数据架构师。这些是数据远见者，他们根据组织的战略和目标获取业务需求并将其转化为技术需求。他们还负责为其组织的数据管理框架创建数据标准和原则。

数据架构师充分了解各种数据和分析场景如何影响其整体 IT 架构。他们经常与企业架构师合作，为他们的数据和分析架构及其支持平台制定战略。

首席信息管理员。执行由信息治理单元制定的信息治理策略是首席信息管理员的主要职责。他们确保所有信息治理政策得到实施和遵守。实际上，他们根据这些策略监控信息人员和资产。

除了数据和分析的重要性和战略价值日益增加之外，IT 领域的巨大变化给企业及其 IT 和数据和分析领导者带来了新的挑战。

非技术业务用户正在颠覆传统的 IT 角色。 IT 在每个部门和整个企业中的日益普及和利用率催生了混合 IT 角色，其中许多角色融入了 IT Ops 的新一代职业。

作者 east

云计算 5月 15,2023

如何有效地对 Cloud FinOps 进行基准测试

由于 Cloud FinOps 能够帮助更有效地管理财务运营，因此在当今数字时代的组织中迅速流行起来。这是因为它允许组织以更高的可见性跟踪、衡量和优化他们的云支出。它还通过自动化众多财务流程（包括计费、预算、审计和报告）来帮助提高运营效率。

除了更好的可见性之外，FinOps 还能够通过提供对使用模式的洞察力来识别节省成本的机会，并进一步帮助组织保持对财务法规的遵守。 FinOps 正迅速成为任何希望在保持财务运营领先地位的同时最大化盈利能力的组织的必备工具。但是组织如何将这些实践的结果与过去的结果进行比较呢？

本博客将讨论您需要了解的有关 FinOps 的所有信息，以及如何在当今不断发展的数字环境中保持领先地位。

Autonomous FinOps（Cloud FinOps 的细分）是一种在云中进行成本优化和财务运营的现代方法。它利用自动化、分析和机器学习技术来优化资源利用率和控制云支出。这种方法允许团队确定优化领域、设置 SLA 并监控他们的进度以降低成本、提高效率和优化资源利用率。它还允许组织更好地了解云资源使用情况、预测未来支出并制定成本优化策略。

随着围绕 Cloud FinOps 开放的新部门区域，团队与 IT 组织合作，以确保云资源得到高效且经济的使用。这种方法可帮助组织最大限度地提高云投资回报，同时最大限度地降低风险和不必要的支出。专注于此的团队还可以帮助组织掌握最新的行业趋势，确定需要改进的领域并做出更好的云决策——这对任何基于云的组织来说都是宝贵的资产。

这种运营方法使组织能够实现其财务和运营目标，同时避免代价高昂的错误。它正迅速成为任何基于云的组织的关键组成部分，对于组织而言，了解 Cloud FinOps 并开发专门从事它的团队以最大化其云投资非常重要。

FinOps 是一种财务优化策略，可让企业减少支出并更好地管理预算。它通过主动支出优化帮助企业提高效率和降低成本。它还采用多种策略，使云用户能够准确跟踪支出、根据使用数据主动采取行动并预测未来成本。

Cloud FinOps 通过加强财务和工程团队之间的协作，帮助企业在云中最大限度地减少开支、最大限度地节省开支并制定预算优化计划。它还提供了对云使用趋势、成本和资源优化机会的可见性。这有助于云用户确定潜在的成本节约和减少超支。

Cloud FinOps 基准测试

FinOps.org 建议采用以下步骤进行有效的基准测试。

资源利用和效率。 FinOps 团队必须确保消耗的每一种资源都能转化为足够的商业价值。由此产生的性能和其他质量指标必须在经济上值得每一笔费用。

首先，FinOps 团队应该建立和定义他们的业务效率指标集。这些指标应该反映他们的业务并衡量资源的效率。

FinOps 团队必须能够将货币价值与可以通过合理调整低效或未充分利用的资源来避免的成本相对应。

衡量单位成本。团队制定能够展示每项云投资的商业价值的指标至关重要。专门的 FinOps 从业者求助于 Cloud Unit Economics，这是一种建立在客观衡量标准之上的利润最大化模型，可根据您的 FinOps 和业务目标评估您的组织绩效。常用单位包括：

基于承诺的折扣。云服务提供商提供服务折扣以吸引客户并签署消费承诺。著名的例子是 AWS Savings Plans 和 Google CUD。

重要的是要注意，每个云提供商都有不同的产品和关于如何提供折扣的独特规则。 FinOps 团队必须仔细研究每个计划，并确定这些折扣结构如何帮助他们实现运营和财务目标。

异常管理。异常是意外的云支出，与正常发生的成本不同。以云自动缩放器为例，许多 FinOps 团队发现他们的云成本飙升，因为这些自动缩放器提供资源的速度很慢。开发人员倾向于过度配置资源，以便他们的应用程序相应地执行，从而导致资源浪费和组织的云账单异常。将异常需求降至最低的 FinOps 团队是一个自主平台，可以根据利用率与分配情况实时安排资源——消除手动调整的错误并最终控制云成本。

Cloud FinOps 如何影响组织

Cloud FinOps 通过适当的监控、实时洞察力和精细报告来制定统一的支出决策。没有健全战略的企业缺乏推动明智、统一决策所需的洞察力。这通常会导致他们的云资源利用率低下，性能不佳且成本高昂。管理人员更好地了解他们的资源利用及其财务影响，从而使他们能够开发和实施简化的实践，以实现运营和财务目标。

这种现代运营方法可帮助公司转变为云优先文化。现在越来越多的组织正在转向云并投资于云资源。然而，只有少数人足够成熟，能够认识到这是一种文化转变。他们正在摆脱传统的流程和模型。 Cloud FinOps 使组织能够发现、阐明和实施获取和使用云资源的最佳方式。这创造了一种文化，在这种文化中，各方都可以从资源的优化和标准化利用中受益。

预测的准确性对于依赖云的组织也至关重要。对云利用率和支出了解最少的企业将难以控制其云消费。 Cloud FinOps 提供实施主动监控、放置和执行控制以及提供自动预算警报所需的数据和见解。企业将为其所有流程提供充足的云资源，同时消除供应不足和过度供应的风险。

使用容量优化器对 FinOps 性能进行基准测试

为了有效地对您的 Cloud FinOps 性能和支出进行基准测试，您将需要一个超越可观察性和表面指标的自主优化工具。 Pepperdata Capacity Optimizer 利用自动化和机器学习来分析大量实时性能和资源利用率数据，以重新捕获浪费的容量、优化集群资源、运行更多应用程序等。

对于寻求提升其 FinOps 方法的组织，Capacity Optimizer 使 FinOps 团队能够了解其云基础架构、流程、消耗和支出。这使他们能够衡量有价值的关键业务 KPI，并获得高度可行的见解，从而削减云成本并提高工作负载效率。

在 Capacity Optimizer 带来的成本控制和优化中，它可以显示企业基础架构内节省的快速差异。最重要的是，它可以帮助企业实现这些成本节约，同时满足 SLA 并实现其业务目标。

作者 east

分类归档云计算