2023年5月 – 第5页

Kafka 5月 7,2023

Kafka 优化：四个最佳实践

Apache Kafka 是一个强大的工具。它允许创建易于扩展的实时、高吞吐量、低延迟数据流。优化后，Kafka 会带来其他好处，例如抵抗集群内发生的机器/节点故障以及集群上数据和消息的持久化。这就是 Kafka 优化如此重要的原因。

优化你的 Kafka 框架应该是一个优先事项。但是，可能很难知道究竟如何优化 Kafka。这就是为什么我们为您带来四个 Kafka 最佳实践，您可以实施这些最佳实践以充分利用该框架。

以下是四个基本的 Kafka 优化技巧：

您的 Kafka 部署可能是一个挑战，因为分布式架构有很多层，并且可以在这些层内调整许多参数。

例如，通常情况下，具有自动数据冗余的高吞吐量发布-订阅 (pub/sub) 模式是一件好事。但是，当您的消费者努力跟上您的数据流，或者如果他们无法阅读消息，因为这些消息在消费者到达它们之前就消失了，那么就需要做一些工作来支持消费应用程序的性能需求。

但是这四种基本的做法应该是你Kafka优化的基础。继续阅读以深入了解这些方法。

实现和维护 Kafka 部署需要持续监控。 Kafka 是一个强大的实时数据流框架。未能优化会导致流式传输缓慢和性能滞后。

Kafka 优化是一个广泛的主题，可以非常深入和精细，但这里有四个高度利用的 Kafka 最佳实践可以帮助您入门：

1.升级到最新版本的Kafka。

这听起来可能非常明显，但您会惊讶于有多少人使用旧版本的 Kafka。一个非常简单的 Kafka 优化举措是升级并使用最新版本的平台。您必须确定您的客户是否使用旧版本的 Kafka（0.10 或更早版本）。如果是，他们应该立即升级。

Kafka 每次更新都会略有变化。最新的 Kafka 版本于 2021 年 4 月发布，提供了 KIP-500 的早期访问版本，使用户即使没有 Apache ZooKeeper 也可以运行 Kafka 代理。这消除了对内部 Raft 实现的需要。其他变化包括支持每个集群更多的分区、更无缝的操作和更严格的安全性。

2. 了解数据吞吐率。

优化 Apache Kafka 部署是优化平台堆栈层的练习。分区是吞吐量性能所基于的存储层。

每个分区的数据速率是消息的平均大小乘以每秒消息数。简而言之，它是数据通过分区的速率。所需的吞吐率决定了分区的目标架构。

这是一个关键的 Kafka 优化技巧：为了提高吞吐量，您可以扩大请求中获取的最小数据量。这导致更少的请求。然后以更大的批次传递消息。这一点至关重要，尤其是在生成的数据量较少时。对 Kafka 吞吐量指标的广泛了解将帮助用户在这种情况下充分优化他们的 Kafka 系统。

3. 在编写主题时坚持随机分区，除非体系结构要求另有要求。

解决方案架构师希望每个分区都支持相似的数据量和吞吐率。实际上，数据速率会随着时间的推移而变化，生产者和消费者的原始数量也会随之变化。

可变性带来的性能挑战是消费者滞后的可能性，也就是消费者读取率落后于生产者写入率。随着 Kafka 环境的扩展，随机分区是一种有效的方法，可确保您不会在不必要地尝试将静态定义应用于移动性能目标时引入人为瓶颈。

分区领导通常是通过由 Zookeeper 维护的元数据进行简单选举的产物。然而，领导选举并没有考虑到各个分区的性能。

根据您的 Kafka 发行版，可以利用专有的平衡器。但由于缺少此类工具，随机分区提供了实现平衡性能的最不干涉途径。

这就是为什么随机分区是我们推荐的关键 Apache Kafka 最佳实践之一。它为消费者平均分配负载。因此，扩展消费者变得更加容易。当您使用默认分区程序而不手动识别特定分区或消息密钥时，这实际上会发生这种情况。随机分区最适合无状态或“令人尴尬的并行”服务。

外卖？在写入主题时坚持随机分区，除非体系结构要求另有要求。

4.调整consumer socket buffer，实现高速摄取。

在较旧的 Kafka 版本中，参数 receive.buffer.bytes 默认设置为 64kB。在较新的 Kafka 版本中，参数为 socket.receive.buffer.bytes，默认为 100kB。

这对 Kafka 优化意味着什么？对于高吞吐量环境，这些默认值太小，因此不够用。当代理和消费者之间的网络带宽延迟乘积大于 LAN（局域网）时，情况就很明显了。

当没有足够的磁盘时，线程会变慢并变得有限。 Apache Kafka 最重要的最佳实践之一是增加网络请求缓冲区的大小。这样做将帮助您提高吞吐量。
如果您的网络以 10 Gbps 或更高的速度运行并且延迟为 1 毫秒或更长，建议您将套接字缓冲区调整为 8 或 16 MB。如果内存有问题，请考虑 1 MB。

优化 Apache Kafka 部署是一项持续的工作，但 Kafka 的这四个最佳实践应该是一个坚实的开始。上面提到的性能优化技巧只是用户可以实施以提高 Kafka 性能的一些优化方法。

Kafka 越来越受到应用程序开发人员、IT 专业人员和数据管理人员的欢迎。并且有充分的理由。有关 Kafka 的更多信息，请查看我们的另一篇博文，其中讨论了将 Kafka 应用于应用程序开发和数据管理的特定领域时的最佳实践。

作者 east

云计算 5月 7,2023

IT 转型的下一步是什么？

查看成功 IT 转型的五项原则电子书，获取有关如何转型 IT 和推动业务成功的深入指导。

IT 转型描述了企业重新检查并可能全面检修其 IT 系统的计划，以系统地努力提高业务效率。在大流行等重大破坏之后，随着行业变得比平时更具竞争力，更新和现代化 IT 系统的需求就变得突出了。

这些计划通常由 CIO（首席信息官）和其他企业领导者牵头。非正式地称为“推倒重来”流程，IT 转型的目标是“推倒”过时的 IT 系统。这些系统可以包括硬件、软件、网络架构、数据访问和存储协议以及 IT 服务管理流程。然后，组织用更新、更复杂的版本“替换”这些过时的 IT 功能。

详细说明这一转型的计划已在各部门和企业中得到越来越多的重视。据 Statista 称，数字化转型计划是 56% 的组织在 2021 年的优先事项。在另一份报告中，超过 77% 的 CIO 表示将推动他们的数字化转型计划作为 2021 年的首要 IT 计划。

大数据量的增加也促使组织进行 IT 转型。最近的统计数据显示，世界在 2020 年创建、捕获和使用了 59 泽字节 (ZB) 的数据。到 2024 年，这个数字将增长到 149 ZB。

大数据为企业提供了对其运营的重要洞察、更快地推动决策制定的能力以及推动创新周期的手段。大数据使企业能够做出正确的选择并有效地实施数据驱动的战略来推动其增长。

然而，面对当今大数据的庞大数量、复杂性和多样性，过时的 IT 基础设施和系统以及传统的数据管理实践变得无效。企业收集的大数据超出了他们的需要。在许多情况下，他们获得了根本不需要的数据类型。

随着越来越多的大数据流入企业，数据分析变得越来越复杂。通过提高他们的 IT 能力，组织将能够有效地筛选、缩小和确定他们需要哪些类型的数据，以便他们的组织以最佳水平充分发挥作用，同时减少他们收集的数据量。

任何 IT 信息计划的最终目标都是增强业务流程和改进服务交付。通过使组织的 IT 现代化以满足当前的服务标准和要求，组织可以对其流程获得深入的、可操作的洞察力；找到更可行的方法来提高效率；优化性能；并降低成本。

结果？更快的上市时间、减少的延迟、愉快的客户旅程和卓越的客户满意度。

不提云计算就不可能讨论 IT 转型。云技术的出现引入了一种新的商业模式，企业将其关键流程和应用程序从现场服务器转移到云托管基础设施。这使他们能够做更多事情，而无需承担本地 IT 中心带来的成本和挑战。

基于云的分析处理的快速发展，以及获取和查询新数据源的能力，使企业能够快速分析信息并根据高质量的洞察力做出战略性业务决策。

这就是制定计划的必要性，尤其是在竞争激烈、消费者比以往任何时候都要求更高的经济环境中。

信息技术转型是一个广泛而持续的过程，包括成本和资源。 IT 专家制定的一项特殊战略是实施 IT 即服务 (ITaaS) 方法，以帮助实现转型并同时降低成本。

ITaaS 是一种变革性的运营模式，无论是来自内部 IT 部门还是来自外部 IT 服务供应商，业务部门或个人用户都可以将 IT 作为托管服务使用。在此模型中，企业只需为他们所需的 IT 服务付费，并从供应商提供的 IT 服务和功能目录中使用这些服务。这包括框架指南、配置设置和各种其他服务。

虽然 ITaaS 不是从内部部署到云的技术转移，但它可以让企业做好准备，并帮助他们在转型 IT 基础架构的过程中实现显着的业务收益。

IT 转型不仅涉及技术转变，还为新角色和职能铺平了道路。 IT 不再是 IT 部门的唯一职责。 IT 几乎存在于整个企业的每个部门或业务单元中。最重要的是，每个单位都有自己的框架来指导其使用 IT。

实施转型战略意味着企业必须将新的 IT 角色作为议程的一部分。 IT 运营中的新兴职业——如数据架构师、数据工程师、数据分析师和首席信息管理员——是对业务领域主导的分析、数据管理自主性等前所未有的增长的集体回应。

IT 格局的重大变化，加上数据和分析的重要性和战略价值不断增加，为企业及其 IT 和数据和分析领导者带来了新的挑战。

传统 IT 角色正在被非技术用户颠覆。 IT 在每个部门和整个企业中的日益普及和利用率创造了混合 IT 角色和新的运营模式。新的 IT 角色承担着与传统 IT 团队重叠的责任和职能。事实上，ITOps 现在几乎是任何处理数据的工作的一部分。因此，这种转变需要寻找“技术运动员”，即灵活、适应性强并愿意承担新的 IT 职能和责任的 IT 专家。搜索本身可能是一项具有挑战性的工作。

云计算彻底改变了企业处理大数据应用程序的方式。这可能是 IT 转型的一大挑战。随着企业转向云端，IT 支出已从资本支出 (CapEx) 转变为运营支出 (OpEx)。这意味着严重的成本管理问题。

虽然放弃数据中心、物理服务器和其他昂贵的网络设施和设备等与资本支出相关的费用有望节省大量资金，但企业必须应对运营支出的高度流动性支出模式。云中的运营费用会迅速增加，特别是如果云团队在没有上限和没有治理的情况下运作。

关键应用程序和操作所需的数据通常量大且访问频繁。为确保在需要时随时可用，此类数据被放入热云存储中。热云存储价格昂贵，因为它们包含更快、更耐用且功能强大的存储介质，如 SSD。

将热数据存储在热云存储中的问题是数据温度会在瞬间发生变化。今天的热点数据明天可能会变冷，而现在的冷数据可能会迅速变得重要。放在冷存储中的数据需要时间来访问和处理。在为冷数据支付热存储的场景中，本可以分配到其他地方的钱很容易丢失。

似乎云计算和信息技术转型还不够复杂，IT 工具和云服务的激增使情况进一步复杂化。企业可以使用大量可用的解决方案和技术。但是，拥有大量选择意味着 IT 领导者必须重新检查他们的 IT 架构和管道，以确保他们针对每个案例和/或目的使用最好的工具。

此外，它不仅限于选择和使用正确的工具和服务。与您的云或多云基础架构一起管理这些工具和服务可能会非常痛苦。您如何才能管理好这一切而又不偏离您的转型目标？

IT 团队必须能够实时无缝地沟通和协作，以便他们有效地管理 IT 基础架构、应用程序及其所有组件。他们需要在出现问题时立即收到通知和警报，以便他们可以快速查明原因并执行有效的解决方案。然而，找到并实施正确的工具并不容易。大多数协作和消息传递软件解决方案都是为企业团队而不是 IT 设计的。

开发人员通常更喜欢容器并选择它们而不是虚拟机，因为前者允许快速简单地创建和分发应用程序代码和依赖项。容器使开发人员能够快速工作并满足业务部门和客户的规范和独特需求。

虽然开发人员称赞容器的使用，但 ITOps 发现它们存在缺陷并且存在多种缺点。一方面，容器不能以裸机速度运行，由于容器和主机系统之间的接口等导致性能开销。其次，图形应用程序在容器内运行时很笨重。第三，一旦容器关闭，您将无法检索容器内的数据。而这些只是众所周知的表面上的划痕。

2021 年 IT 优先事项报告显示，由于与 COVID-19 相关的中断和紧张局势，IT 挑战已经扩大。随着转型和云采用计划的显着加速，新的 IT 问题逐渐浮出水面。

使用过时的 IT 技术是 37% 的 IT 领导者和员工的主要挫败感，其次是获得远程办公支持 (33%)。处理支持票是第三大挫折。然而，尽管最近面临挑战，但超过一半的受访者表达了对 IT 的尊重和同情。

当您的企业踏上 IT 转型之路时，您最好参考以下几点以帮助您走在正确的轨道上：

要了解更多信息，请查看我们的电子书，了解有关如何转变 IT 和推动业务走向成功的深入指导。

作者 east

Hive 5月 6,2023

Hive 查询介绍——它们是什么以及如何有效地编写它们

在大数据领域，Hive 是一个大问题。精心编写和精心设计的 Hive 查询可加速从数据集中检索数据。 Hive 比 SQL 好得多，因为前者可以更有效地处理复杂数据。此外，Hive 查询有助于降低处理成本。这就是为什么为大数据分析用户和开发人员正确编写和优化 Hive 查询至关重要。

与其他可用的数据处理平台相比，完全优化的数据查询以更快的速度为您提供所需的数据。高效有效的 Hive 查询可以减少 50% 的执行时间。当您的数据处理框架运行得更快时，好处就会增加。

回答这个问题首先要准确理解 Hive 到底是什么。 Apache Hive 是一个在 Hadoop 之上开发的开源数据仓库平台，用于执行数据分析和分布式处理。 Facebook 创建了 Apache Hive 以减少编写 Java MapReduce 平台所需的工作。

大数据流程需要快速准确地处理大量不同的数据，以提供高度可行的见解。如果手动完成，这是一项不可能完成的任务。 Hive 的存在是为了简化大数据处理，并通过快速 Hive 查询将原始数据转化为可操作的内容。

使用 Hive 进行查询和数据分析比使用 MapReduce 框架更容易、更快，即使在处理大型数据集时也是如此。为简单起见，我们将重点关注 MapReduce 作为主要执行引擎，了解 Hive 还可以利用 Tez、Tez LLAP 和 Spark。 MapReduce 是一个低级平台，需要多个自定义程序才能运行。开发人员必须熟悉 Java，它已经是一个复杂的平台，才能充分利用 MapReduce。相比之下，您无需成为 Java 专家即可使用 Hive。

通常，Hive 查询只是对信息的请求。当在数据科学和计算机编程的上下文中使用时，Hive 查询是同一回事。不同之处在于信息直接来自数据库。

Hive 查询不仅仅是随机信息请求。您要检索的信息必须具体。因此，您可以使用一组预定义代码和数据库原生的编程语言来编写和优化 Hive 查询。一旦数据库收到并理解该指令，它就会收集查询中指定的所有信息并发布您请求的数据。

要真正从您的查询中获得最大价值，它们必须写得很好并且经过专业调整。但在此之前，让我们深入了解您需要了解的关于它们的其他信息。

用于创建数据库管理任务和流程的标准编程语言称为结构化查询语言 (SQL)。但是，SQL 并不是使用 Hive 执行查询和数据分析的唯一编程语言。 AQL、Datalog 和 DMX 也是流行的选择。

Hive 查询语言或 HiveQL 是一种类似于 SQL 的声明性语言。 HiveQL 所做的是将这些查询转换为 MapReduce 程序。它还使开发人员能够通过将复杂的 MapReduce 程序替换为 Hive 查询来处理和分析结构化和半结构化数据。

任何熟悉 SQL 命令的开发人员都会发现使用 Hive 查询语言创建请求很容易。

分区、表和桶的创建

您可以在 Hive 中创建查询，以将存储在 Hadoop 文件中的大型数据集分类到表、分区和存储桶中。在每个模型中，您根据分区或列键对相同类型的数据进行分组。可以有一个或多个分区键来帮助查明特定分区。分区数据集加速了对数据切片的查询。

ETL 功能

在将数据加载到其目标数据存储之前，您需要使用 ETL（提取、转换和加载）功能清理、准备和转换该数据。 Hive 查询可以做到这一点。数据通常从源中提取，然后存储在通用或兼容的存储中，例如 Azure Data Lake Storage 或 Azure Storage blob。然后一系列查询转换数据。在此之后，数据在 Apache Hive 中进行组织，然后再批量加载到其目标数据仓库中。

创建用于合并不同数据表的连接

Hive 查询可以包括连接，这是一种用于通过使用每个表共享的值来组合来自两个或多个表的特定字段或记录的功能。联接在速度方面以指数方式提高 Hive 查询的效率，具体取决于查询的编写方式。例如，当它们首先对最小表进行流式处理，最后对最大表进行流式传输时，带有连接子句的查询执行得更快，而不是相反。

有四种类型的连接，对每一种类型的深入了解将帮助用户选择正确的连接来使用——并编写正确的查询。这四种类型的连接是：

按查询排序

HiveQL 中的 ORDER BY 语法使用“SELECT”语句来帮助对数据进行排序。此语法遍历 Hive 表上的列，以按照“Order by”子句中的说明查找和筛选特定列值。查询只会选取 Order by 子句中提到的列名，并以升序或降序显示匹配的列值。

按查询分组

当 Hive 查询带有“GROUP BY”时，它会探索 Hive 表上的列并收集 group by 子句中提到的所有列值。查询将仅查看名称定义为“group by”子句的列，并将通过对特定和匹配的列值进行分组来显示结果。

按查询排序

当 Hive 查询带有“排序依据”子句时，它会遍历查询定义的名称下的列。执行后，查询会探索 Hive 表的列以对输出进行排序。如果您使用“DESC”指令按查询排序，您将按降序排序和显示结果。带有“ASC”的查询将执行升序排序并以类似方式显示结果。

按查询聚类

带有 CLUSTER BY 子句或命令的 Hive 查询通常部署在查询中以同时执行 DISTRIBUTE BY 和 SORT BY 的功能。此特定查询可确保对所有输出数据文件进行绝对排序或排序。

分配方式

DISTRIBUTE BY 指令确定输出如何在 MapReduce 作业中的缩减程序之间分配。 DISTRIBUTE BY 的功能类似于 GROUP BY 子句，因为它管理如何将数据行加载到 reducer 中进行处理。

查看另一篇博文，您将在其中了解如何通过 Hive 查询优化来充分利用 Hive 查询。

以下是您在管理 Hive 查询时会遇到的常见命令的简要介绍。

Hive 数据定义语言 (DDL) 命令

Apache Hive 备忘单是一个包含所有 Apache Hive 语法和函数的五部分摘要。为开发人员和大数据工程师提供参考或指导。

Apache Hive 备忘单分为以下部分：

Hive 查询会消耗资源。在大数据的世界里，资源就是金钱，资源的低效利用可能会阻碍任何组织。因此，Hive 查询优化对于将资源消耗保持在最低水平、运营成本可控以及整体性能处于最佳水平至关重要。

以下是优化 Hive 查询的一些有效方法：

针对我们所有的查询优化您的方法至关重要。 Pepperdata 为企业提供大数据优化解决方案，旨在为他们的查询、Query Spotlight 以及他们的所有堆栈、应用程序、流程等提供全面的可见性和可观察性。用户享受实时性能报告和数据驱动的建议，以优化其大数据基础架构及其所有组件的性能，同时显着降低运营成本。

作者 east

chatgpt 5月 6,2023

当机器人来的时候

像每个人和他们的兄弟一样，我一直在玩 ChatGPT 并向它提出生活中必不可少的问题。它自信地告诉我一些事情，其中一些事情非常有见地。然而，错误的人和聊天机器人经常自信地陈述事情。
我看到最近在 Mastodon 上发布的 Google Answer。在这个“答案”中，谷歌建议在海洋中处理用过的汽车电池有好处，包括为电鳗充电和为墨西哥湾流提供动力。 Bing 然后选择了这个答案，还提出了非法处理电池对环境的好处。我想知道 Google 是否意识到您可以使用机油为草坪施肥。（作者注：请不要将电池扔进海里或用机油给草坪施肥。）
据推测，搜索此内容的人正在寻找这个笑话，但它提出了一个有趣的问题。随着越来越多的人使用 ChatGPT 并在网络上发布他们的结果，越来越多的 AI 问答系统选择他们自己和其他人生成的响应并对其进行训练——会发生什么？
对于一个他们不知道答案的问题，我做了任何人都会做的事情。我问 ChatGPT，“当人们发布 ChatGPT 的输出并且它根据自己的响应进行训练时会发生什么？”
机器人回复：
如果人们发布 ChatGPT 的输出并使用它根据自己的响应进一步训练模型，这被称为自我训练或自我监督学习。在这种情况下，模型将继续从自己的输出中学习，并可能随着时间的推移提高其性能。
但是，在使用自我训练时需要考虑一些潜在的风险。一个风险是模型可能会过度拟合其自身的输出，这意味着它变得过于专业化地回应它之前遇到的问题和陈述的类型。这可能会导致模型在新数据或未见过的数据上表现不佳。
另一个风险是，如果在自我训练期间没有得到适当的监控和监督，模型可能会开始产生无意义或不适当的反应。这可能是由于模型在其自身输出中发现了模式或偏差，并随着时间的推移而放大了它们。
因此，在自我训练像 ChatGPT 这样的语言模型时要谨慎，并仔细监控其性能和输出以确保它继续生成高质量的响应，这一点很重要。
这指出了一些非常可怕的社会后果，因为人们似乎相信 ChatGPT 并认为它神奇地正确（以及情感）。我想知道会有什么社会后果？我问，“人们依赖 ChatGPT 会产生什么社会影响，它开始产生无意义的结果，因为它是根据自己的信息进行训练的？”
机器人说：
如果人们过度依赖像 ChatGPT 这样的语言模型，并且它开始产生无意义的结果，因为它是根据自己的信息进行训练的，这可能会产生一些负面的社会影响。
首先，当 ChatGPT 对他们的问题或陈述提供荒谬或不恰当的回答时，人们可能会感到沮丧或困惑。这可能会导致沟通中断和对技术失去信任。
其次，如果人们依赖 ChatGPT 来提供重要信息或做出重要决策，那么模型产生无意义结果的后果可能会很严重。例如，如果基于 ChatGPT 的聊天机器人用于提供医疗建议或诊断健康状况，依赖无意义的响应可能会导致严重的健康风险。
第三，如果使用 ChatGPT 为社交媒体或其他在线平台生成内容，可能会导致错误信息或假新闻的传播。这可能会产生严重的社会和政治后果，因为虚假信息可能被用来操纵公众舆论或破坏民主进程。
一般来说，谨慎使用 ChatGPT 等语言模型并仔细监控其性能以确保它们继续产生准确和适当的响应非常重要。同样重要的是要认识到这些模型的局限性，而不是依赖它们来替代人类的智慧和专业知识。
哦，所以我们应该负责任地使用技术。我想知道 ChatGPT 认为我们应该怎么做？我问道，“鉴于人类几乎从未负责任地使用过新技术，这种情况下可能出现的结果是什么？”
它回答说：
虽然过去人类确实经常难以负责任地使用新技术，但重要的是要认识到每项新技术都是独一无二的，并且可能会带来一系列风险和挑战。因此，很难确定地预测涉及像 ChatGPT 这样的语言模型的场景的结果。
也就是说，可以采取一些措施来尽量减少这项技术的潜在负面影响。例如，ChatGPT 等语言模型的开发人员和用户可以努力识别和解决在技术开发和部署过程中可能出现的任何偏见或道德问题。这可能包括实施保护措施以防止错误信息或不当内容的传播，并确保模型是根据多样化和有代表性的数据进行训练的。
此外，政府和监管机构可以发挥作用，确保以负责任的方式使用 ChatGPT 等语言模型，并采取适当的保护措施来保护公众。这可能包括有关在特定行业或应用程序中使用语言模型的法规，以及对这些技术的开发和部署的透明度和问责制的要求。
总之，虽然使用 ChatGPT 等语言模型肯定存在风险，但可以通过负责任的开发和部署以及监管监督和公众意识来减轻这些风险。
哇哦，ChatGPT 认为它应该受到监管？我给它的创建者 OpenAI 发了邮件，问他们是否同意，如果不同意，那么他们知道什么是他们的语言模型不知道的？截至发稿时，他们尚未回复。
长期以来，我们一直在自我训练以“用谷歌搜索答案”，现在我们可能开始训练自己“只问 ChatGPT”。然而，重要的是要记住，这个工具只是吸取互联网的一部分并将其反哺给你。 ChatGPT 可以是一个不错的研究工具，但它是垃圾输入和垃圾输出。
像所有技术一样，这是 BYOB。带上你自己的大脑，不要给鳗鱼喂汽车电池。

作者 east

大数据开发 5月 4,2023

dolphinscheduler如何安装(分布式)

DolphinScheduler 是一个分布式任务调度系统，可以对任务或者工作流进行统一管理和调度。它支持丰富的任务调度方式，包括定时执行、依赖关系、补偿机制等。以下是 Dolphinscheduler 的安装教程：

确认服务器配置：首先需要确认服务器的配置，包括 CPU 核心数、内存大小、磁盘空间等。Dolphinscheduler 需要运行在至少 2 台服务器上，其中一个需要作为 Master 节点，其他为 Worker 节点。
下载安装包：从 Dolphinscheduler 的官网下载最新的稳定版本。通常情况下，推荐下载二进制包进行安装。下载完成后，将压缩包上传到服务器上，并解压到指定的目录。
配置环境变量：需要配置环境变量，以便在任何位置启动或停止 DolphinScheduler。假设你解压到 /opt 目录下，可以修改 /etc/profile 文件，并加入以下内容：

export DOLPHINSCHEDULER_HOME=/opt/dolphinscheduler
export PATH=$DOLPHINSCHEDULER_HOME/bin:$PATH

初始化数据库：在安装 DolphinScheduler 之前，需要初始化数据库并创建相应的用户和权限。你可以使用如下的命令进行初始化：

cd /opt/dolphinscheduler/bin
sh create-dolphin-db.sh

修改配置文件：在 conf 目录下，有两个核心的配置文件：dolphinscheduler.properties 和 worker.properties。其中，dolphinscheduler.properties 主要配置 Master 节点相关的参数，而 worker.properties 则配置 Worker 节点相关参数。需要根据实际情况进行修改。
启动 DolphinScheduler：在 Master 节点上，使用以下命令启动 DolphinScheduler：

cd /opt/dolphinscheduler
./bin/dolphinscheduler-daemon.sh start master

如果需要启动 Worker 节点，可以使用以下命令：

cd /opt/dolphinscheduler
./bin/dolphinscheduler-daemon.sh start worker

访问 DolphinScheduler：启动完成后，在浏览器中输入 Master 节点的 IP 地址和端口号（默认为 12345），即可访问 DolphinScheduler 的 Web 界面进行任务管理和调度。

总体来说，DolphinScheduler 的安装比较简单，但需要注意配置文件和数据库的初始化，以便保证系统的正常运行。

作者 east

大数据开发 5月 4,2023

在CDH6.3.2的大数据集群中，怎样安装dolphinscheduler调度器

安装MySQL (5.6.24+)，JDK (1.8.0_292+)，ZooKeeper (3.4.5+)，Hadoop (3.0.0+)等基础组件。
下载dolphinscheduler的二进制包，并解压到部署目录，如 /opt/module/dolphinscheduler。
在每台部署机器上创建部署用户 dolphinscheduler，并配置sudo免密和ssh免密登录。
在MySQL中创建数据库 dolphinscheduler，并授权给用户 dolphinscheduler。
修改 conf 目录下的 datasource.properties 和 dolphinscheduler_env.sh 文件，配置数据库连接信息和环境变量。
将 mysql-connector-java 驱动 jar 包复制到 lib 目录下。
执行 script/create-dolphinscheduler.sh 脚本，创建表和导入基础数据。
执行 bin/install.sh 脚本，一键部署。
访问 http://localhost:12345/dolphinscheduler ，使用默认账号 admin 和密码 dolphinscheduler123 登录。

dolphinscheduler 下载地址

https://www.apache.org/dyn/closer.lua/dolphinscheduler/3.1.5/apache-dolphinscheduler-3.1.5-bin.tar.gz

dolphinscheduler 部署指南

https://dolphinscheduler.apache.org/zh-cn/docs/3.1.5/%E9%83%A8%E7%BD%B2%E6%8C%87%E5%8D%97_menu

作者 east

月度归档5月 2023