Hive – 第2页 – gitweixin

Hive 5月 20,2023

Hive 查询示例：您需要了解的内容

如果您在 Hadoop 上使用 Hive，了解 Hive 查询并熟悉一两个 Hive 查询示例是实现有效集群管理的关键。 Hive 查询消耗时间和资源，因此必须通过 Hive 查询调优来提高效率。在本文中，您将了解什么是 Hive 查询、它们如何影响您的集群（正面和负面）、有用的 Hive 查询方法，以及一个好的 Hive 查询示例是什么样的。让我们开始吧。

Hive 查询是来自 Hadoop 数据库的特定信息请求。这些信息请求由 Apache Hive 执行，Apache Hive 是一个在 Hadoop 之上开发的开源数据仓库平台。 Facebook 在编写 Java MapReduce 平台方面创建了 Hive 来执行数据分析、分布式处理和减少工作。

Hive 查询使用一组预定义的代码，这些代码是您的数据库语言的本机代码。然后数据库接收指令，一旦它理解了该指令，就收集并发布所请求的信息。

Hive 是为提高效率而设计的，这就是为什么它的查询需要完美调整和编写良好的原因。您还可以设置依赖项以启用查询的自动计划。这将保证一旦一个动作完成，下一个动作立即开始。

与增加网络带宽相比，提高系统的 RAM 容量和 CPU 能力可以加快 Hive 响应时间。

调优不当的查询会给组织带来重大挫折。其中最大的是错过了 SLA（服务水平协议）。

这些协议表示企业及其客户同意的服务水平，包括性能保证、数据安全、正常运行时间和客户服务标准。因此，如果低效查询导致错过 SLA，结果可能是罚款、退款，或者在某些情况下终止合同。

调整不当的 Hive 查询也会消耗资源。这些会在两个方面影响您的 Hadoop 集群。一：调优不佳的查询会耗尽集群中其他用户或功能的资源。这会导致性能下降和响应时间变慢。二：使用的资源产生成本。由于 Hive 查询调优不佳而造成的资源浪费会增加您的 AWS 账单，让您非常头疼。

低效查询的其他一些影响可能会破坏集群性能、减慢数据库速度和停机时间。

由于低效查询会产生许多负面影响，因此优化查询至关重要。

有一些非常方便的 Hive 查询调优方法，具体取决于您是针对时间还是资源使用进行优化：

适当的 Hive 调整允许您操作尽可能少的数据。一种方法是通过分区，将“键”分配给数据被隔离的子目录。当您的查询需要信息时，您可以定位数据所在的特定子集，这样可以节省您扫描不需要的数据的时间。

分桶类似于分区，尽管它有助于通过扫描更少的数据来提高连接性能。

这有助于最大限度地减少遍历查询过程中各个步骤的数据量，以及在查询状态之间移动所需的时间。

在执行方面，利用执行引擎（如 Tez、Hive on Spark 和 LLAP）可以帮助提高查询性能，而无需低级调优方法。在不需要顺序操作时利用并行执行也是明智的。您的系统可以执行的并行度取决于可用资源和整体数据结构。

此外，它有助于在所有任务之间保持工作的均匀分布，以避免出现偏差。请记住：您的整体查询速度只能与最慢的任务一样快。

最后，当您查看测试时，采样（也称为单元测试）是最好的 Hive 查询调优技术之一。通过获取数据的一个子集并一次运行一千行查询，您可以更快地找到失败、奇怪的结果和错误。这有助于您微调查询以获得更高的准确性和效率。

每个查询还应该自动进行审查和性能测量。这确保他们在晋升到更高级别的环境之前满足最低要求。将不良查询排除在生产之外。

关注公众号“大模型全栈程序员”回复“大数据面试”获取800页左右大数据面试宝典，回复“大数据”获取多本大数据电子书

作者 east

Hive 5月 18,2023

Hive 性能调优：行之有效的成功方法

您确定您的 Hive 查询正在以最佳状态执行吗？你可能会感到惊讶。 Apache Hive 是当今许多大型企业环境中使用最普遍的查询引擎，但这并不意味着它可以自动优化工作。为了充分利用引擎并实现 Hive 查询优化，调整其性能非常重要。但在深入探讨之前，让我们介绍一下 Hive 性能调优的基础知识。

什么是 Hive 性能调优？ Hive 性能调优是指旨在改进和加速 Hive 环境性能的集体流程和步骤。当查询未优化时，简单语句的执行时间会更长，从而导致性能滞后和停机。

如何优化 Hive 查询？性能调优是优化 Hive 查询的关键。首先，通过分区、分桶、压缩等调整数据。改进 Hive 查询的执行是另一种 Hive 查询优化技术。您可以通过使用 Tez、避免偏斜和增加并行执行来做到这一点。最后，抽样和单元测试可以帮助您首先查看（并解决）较小规模的问题，从而帮助优化查询。

虽然我们现在了解它的重要性，但调整 Hive 环境以获得最佳性能可能会很棘手。知道如何分析 Hive 查询性能是成功的必要条件。但是 Hive 性能调优最佳实践是什么？开发人员和运维团队可以做些什么来确保最佳的 Hive 查询性能？

如果您有这些问题，这篇文章适合您。继续阅读以了解三个关键类别的有效性能调整最佳实践。无论您是调整时间还是有效利用资源，这些技巧都适用。

想要更多关于提高 Hive 查询性能的技巧？获取我们的电子书：通过真正了解查询的执行方式来提高性能。

如何提高我的 Hive 性能？大多数用户和开发人员都是从调整他们的数据开始的。使用分区、分桶、压缩、避免小文件等都是很棒的 Hive 查询优化技术。

在 Pepperdata，我们处理有关 Hive 查询的各种问题，其中主要是提高 Hive 性能。在本节中，我们将深入探讨如何尽可能少地操纵数据以获得成功。

分区

分区是一种常见的 Hive 查询调优策略，它根据键将表数据放置在表位置的单独子目录中。分区键提供了一个机会来定位表数据的一个子集，而不是扫描您的操作不需要的数据。

无论存在多少数据，当你有分区时，Hive 只读取特定数量的数据来生成结果。这极大地提高了性能，即使您执行复杂的分析查询也是如此。这是因为 Hive 只需从子句中指定的几个分区读取数据。它已经在启动查询执行之前过滤掉所需的数据。

分桶

Bucketing 类似于分区，是一种 Hive 查询调优策略，允许您以数据子集为目标。在这种情况下，专门通过扫描更少的数据来提高连接性能。由于需要输入、输出或存储在内存中的数据更少，因此这改进了跨时间和效率向量的查询。

Hive 中的分桶需要将表数据集分解为更小的部分。因此，数据更容易处理。使用分桶，您可以连接相似的数据类型并将它们写入单个文件。此处的此步骤大大提高了连接表或读取数据时的性能。这就是带分区的分桶在 Hive 用户中如此受欢迎的原因。

压缩

压缩被列为最好的 Hive 查询优化技术之一。大数据压缩减少了处理大型数据集所需的带宽和存储量。此外，压缩从您的系统中消除了冗余和不重要的部分。

查询操作的每一位数据都有与从磁盘获取数据、进入内存、内存不足以及返回磁盘或另一个最终目标相关的 I/O。压缩最大限度地减少了遍历每个步骤的数据量，并减少了在查询状态中移动所花费的时间。

避免小文件

从查询中消除小文件操作是一种有效的 Hive 性能调优策略。这样做可以促进健康的 Hive 生态系统。每个文件都由 Hive Metastore 跟踪并存储在 HDFS 中，每个文件都经过性能优化以处理较大的文件而不是许多较小的文件。查询性能受限于整个系统和平台的健康状况。

反规范化数据

如果您想消除在运行时从多个表连接数据的需要，Hive 专家建议将数据反规范化作为一种首选的 Hive 性能调整方法。通过向一个或多个表添加冗余数据来执行反规范化。这可以帮助我们避免在关系数据库中进行代价高昂的连接。

虽然规范化很有用，但除了从操作中完全消除不需要的数据之外，避免连接是您可以对给定查询做出的最有影响力的更改之一。

表设计

Hive 表不同于大多数数据专业人员所习惯的传统数据库表。它们本质上是子目录。增加分区数量以促进高效读取和并行性是针对这种情况的最有效的 Hive 优化技术之一。然而，这个解决方案并不过分。分区过多会降低 Metastore 和 Hive 服务器的性能。跟踪和基线性能是了解分区数量何时从有益变为有害的最佳方式。

简单连接通常更好

有很多策略旨在提高连接的效率。 SMB 连接、映射连接、流表——每一个都旨在消除连接的复杂性或阶段。嵌套连接的执行成本也很高。由于连接的成本很高，因此正在做很多工作来提高连接性能。

输入文件格式选择

输入格式选择在 Hive 查询调优中很重要。例如，在处理生成大量数据的大规模生产系统时，JSON 不是理想的格式选择。这是因为 JSON 和类似的格式类型实际上占用了大量空间以及一些解析开销。

Apache Hive 利用 RCFile 和 ORC 等列式输入格式来解决此类问题。列格式使您能够单独访问每一列，从而减少分析查询中的读取操作。这导致更快的查询性能。

一开始就正确编写 Hive 查询至关重要。 Hive 查询的执行主要取决于其用户编写的代码。但并不是所有的代码都写得完美。事实上，他们需要不断调整和改变。 Hive 查询调优不仅仅与数据有关；提高执行力对于 Hive 的成功也至关重要。

使用 Tez（或更好的东西）

Apache Tez 是一个构建在 Apache Hadoop 2.0 (Yarn) 之上的框架，旨在加速 Hive 的查询执行。 Tez 帮助用户启动和持有一个或多个容器，这些容器可以重复使用以执行多个查询。它还可以帮助用户避免多次磁盘 IO 并减少启动 JVM 的开销。

执行引擎显然是开发人员关注的焦点，因为我们看到 Tez、LLAP 和 Hive on Spark 等框架希望以无需低级调优即可提高性能的方式添加到核心 Hive。理解和利用手头任务的最佳执行引擎应该是 Hive 性能调整的强制性考虑因素。

避免歪斜

Hive 查询部署一组分布式任务。整体查询仅与最慢的任务一样快。确保在任务之间均匀分配工作是一种有效的 Hive 性能调整方法。这是因为在某些任务中，它通过处理比必要的更多数据来防止查询本身变慢。

增加并行执行

默认情况下，Hive 只会在给定时间执行一个阶段。然而，一个特定的工作可能包含多个阶段，这些阶段可能并不完全相互依赖。并行执行这些非相互依赖的阶段，而不是在一个实例中运行单个阶段，可以大大减少整个作业的运行时间。

并行执行是最好的 Hive 优化技术之一，但只有在不需要顺序操作时才应利用它。并行度的数量取决于资源的可用性和数据的结构。这是另一个领域，如果没有良好的性能解决方案，“正确”的数字可能很难得出。

抽样/单元测试是一个很大的帮助

抽样和单元测试就是在你去操作一百万行之前获取你的数据的一个子集并运行一千行。这种特定的 Hive 查询调优最佳实践可帮助您了解您的代码如何工作，以便在您将大数据集投入其中之前获得所需的结果。这并非万无一失，但在小范围内解决失败或奇怪的结果比在规模上这样做更快、更有效。

将错误的查询拒之门外

仔细检查查询性能并防止低效查询进入生产环境听起来很简单，但是这个 Hive 性能调整步骤经常被跳过，直到出现问题并且为时已晚。在提升到更高级别的环境之前，应自动测量每个查询的性能和效率以满足最低可接受水平。

根据我们的 2021 年大数据调查报告，29% 的企业表示 Hive 应用程序和工作负载消耗了他们的大部分资源。 Hive 是当今企业运营的重要组成部分。这就是为什么在保持资源消耗和相关成本可控的同时微调 Hive 查询以实现最佳性能至关重要的原因。

作者 east

Hive 5月 7,2023

Hive 查询优化的 Hive 性能调优方法

您确定您的 Hive 查询正在以最佳状态执行吗？你可能会感到惊讶。 Apache Hive 是当今许多大型企业环境中使用最普遍的查询引擎，但这并不意味着它可以自动优化工作。为了充分利用引擎并实现 Hive 查询优化，调整其性能非常重要。但在深入探讨之前，让我们介绍一下 Hive 性能调优的基础知识。

什么是 Hive 性能调优？ Hive 性能调优是指旨在改进和加速 Hive 环境性能的集体流程和步骤。当查询未优化时，简单语句的执行时间会更长，从而导致性能滞后和停机。

如何优化 Hive 查询？性能调优是优化 Hive 查询的关键。首先，通过分区、分桶、压缩等调整数据。改进 Hive 查询的执行是另一种 Hive 查询优化技术。您可以通过使用 Tez、避免偏斜和增加并行执行来做到这一点。最后，抽样和单元测试可以帮助您首先查看（并解决）较小规模的问题，从而帮助优化查询。

虽然我们现在了解它的重要性，但调整 Hive 环境以获得最佳性能可能会很棘手。知道如何分析 Hive 查询性能是成功的必要条件。但是 Hive 性能调优最佳实践是什么？开发人员和运维团队可以做些什么来确保最佳的 Hive 查询性能？

如果您有这些问题，这篇文章适合您。继续阅读以了解三个关键类别的有效性能调整最佳实践。无论您是调整时间还是有效利用资源，这些技巧都适用。

想要更多关于提高 Hive 查询性能的技巧？获取我们的电子书：通过真正了解查询的执行方式来提高性能。

如何提高我的 Hive 性能？大多数用户和开发人员都是从调整他们的数据开始的。使用分区、分桶、压缩、避免小文件等都是很棒的 Hive 查询优化技术。

在 Pepperdata，我们处理有关 Hive 查询的各种问题，其中主要是提高 Hive 性能。在本节中，我们将深入探讨如何尽可能少地操纵数据以获得成功。

分区

分区是一种常见的 Hive 查询调优策略，它根据键将表数据放置在表位置的单独子目录中。分区键提供了一个机会来定位表数据的一个子集，而不是扫描您的操作不需要的数据。

无论存在多少数据，当你有分区时，Hive 只读取特定数量的数据来生成结果。这极大地提高了性能，即使您执行复杂的分析查询也是如此。这是因为 Hive 只需从子句中指定的几个分区读取数据。它已经在启动查询执行之前过滤掉所需的数据。

分桶

Bucketing 类似于分区，是一种 Hive 查询调优策略，允许您以数据子集为目标。在这种情况下，专门通过扫描更少的数据来提高连接性能。由于需要输入、输出或存储在内存中的数据更少，因此这改进了跨时间和效率向量的查询。

Hive 中的分桶需要将表数据集分解为更小的部分。因此，数据更容易处理。使用分桶，您可以连接相似的数据类型并将它们写入单个文件。此处的此步骤大大提高了连接表或读取数据时的性能。这就是带分区的分桶在 Hive 用户中如此受欢迎的原因。

压缩

压缩被列为最好的 Hive 查询优化技术之一。大数据压缩减少了处理大型数据集所需的带宽和存储量。此外，压缩从您的系统中消除了冗余和不重要的部分。

查询操作的每一位数据都有与从磁盘获取数据、进入内存、内存不足以及返回磁盘或另一个最终目标相关的 I/O。压缩最大限度地减少了遍历每个步骤的数据量，并减少了在查询状态中移动所花费的时间。

避免小文件

从查询中消除小文件操作是一种有效的 Hive 性能调优策略。这样做可以促进健康的 Hive 生态系统。每个文件都由 Hive Metastore 跟踪并存储在 HDFS 中，每个文件都经过性能优化以处理较大的文件而不是许多较小的文件。查询性能受限于整个系统和平台的健康状况。

反规范化数据

如果您想消除在运行时从多个表连接数据的需要，Hive 专家建议将数据反规范化作为一种首选的 Hive 性能调整方法。通过向一个或多个表添加冗余数据来执行反规范化。这可以帮助我们避免在关系数据库中进行代价高昂的连接。

虽然规范化很有用，但除了从操作中完全消除不需要的数据之外，避免连接是您可以对给定查询做出的最有影响力的更改之一。

表设计

Hive 表不同于大多数数据专业人员所习惯的传统数据库表。它们本质上是子目录。增加分区数量以促进高效读取和并行性是针对这种情况的最有效的 Hive 优化技术之一。然而，这个解决方案并不过分。分区过多会降低 Metastore 和 Hive 服务器的性能。跟踪和基线性能是了解分区数量何时从有益变为有害的最佳方式。

简单连接通常更好

有很多策略旨在提高连接的效率。 SMB 连接、映射连接、流表——每一个都旨在消除连接的复杂性或阶段。嵌套连接的执行成本也很高。由于连接的成本很高，因此正在做很多工作来提高连接性能。

输入文件格式选择

输入格式选择在 Hive 查询调优中很重要。例如，在处理生成大量数据的大规模生产系统时，JSON 不是理想的格式选择。这是因为 JSON 和类似的格式类型实际上占用了大量空间以及一些解析开销。

Apache Hive 利用 RCFile 和 ORC 等列式输入格式来解决此类问题。列格式使您能够单独访问每一列，从而减少分析查询中的读取操作。这导致更快的查询性能。

一开始就正确编写 Hive 查询至关重要。 Hive 查询的执行主要取决于其用户编写的代码。但并不是所有的代码都写得完美。事实上，他们需要不断调整和改变。 Hive 查询调优不仅仅与数据有关；提高执行力对于 Hive 的成功也至关重要。

使用 Tez（或更好的东西）

Apache Tez 是一个构建在 Apache Hadoop 2.0 (Yarn) 之上的框架，旨在加速 Hive 的查询执行。 Tez 帮助用户启动和持有一个或多个容器，这些容器可以重复使用以执行多个查询。它还可以帮助用户避免多次磁盘 IO 并减少启动 JVM 的开销。

执行引擎显然是开发人员关注的焦点，因为我们看到 Tez、LLAP 和 Hive on Spark 等框架希望以无需低级调优即可提高性能的方式添加到核心 Hive。理解和利用手头任务的最佳执行引擎应该是 Hive 性能调整的强制性考虑因素。

避免歪斜

Hive 查询部署一组分布式任务。整体查询仅与最慢的任务一样快。确保在任务之间均匀分配工作是一种有效的 Hive 性能调整方法。这是因为在某些任务中，它通过处理比必要的更多数据来防止查询本身变慢。

增加并行执行

默认情况下，Hive 只会在给定时间执行一个阶段。然而，一个特定的工作可能包含多个阶段，这些阶段可能并不完全相互依赖。并行执行这些非相互依赖的阶段，而不是在一个实例中运行单个阶段，可以大大减少整个作业的运行时间。

并行执行是最好的 Hive 优化技术之一，但只有在不需要顺序操作时才应利用它。并行度的数量取决于资源的可用性和数据的结构。这是另一个领域，如果没有良好的性能解决方案，“正确”的数字可能很难得出。

抽样/单元测试是一个很大的帮助

抽样和单元测试就是在你去操作一百万行之前获取你的数据的一个子集并运行一千行。这种特定的 Hive 查询调优最佳实践可帮助您了解您的代码如何工作，以便在您将大数据集投入其中之前获得所需的结果。这并非万无一失，但在小范围内解决失败或奇怪的结果比在规模上这样做更快、更有效。

将错误的查询拒之门外

仔细检查查询性能并防止低效查询进入生产环境听起来很简单，但是这个 Hive 性能调整步骤经常被跳过，直到出现问题并且为时已晚。在提升到更高级别的环境之前，应自动测量每个查询的性能和效率以满足最低可接受水平。

根据我们的 2021 年大数据调查报告，29% 的企业表示 Hive 应用程序和工作负载消耗了他们的大部分资源。 Hive 是当今企业运营的重要组成部分。这就是为什么在保持资源消耗和相关成本可控的同时微调 Hive 查询以实现最佳性能至关重要的原因。

作者 east

Hive 5月 6,2023

Hive 查询介绍——它们是什么以及如何有效地编写它们

在大数据领域，Hive 是一个大问题。精心编写和精心设计的 Hive 查询可加速从数据集中检索数据。 Hive 比 SQL 好得多，因为前者可以更有效地处理复杂数据。此外，Hive 查询有助于降低处理成本。这就是为什么为大数据分析用户和开发人员正确编写和优化 Hive 查询至关重要。

与其他可用的数据处理平台相比，完全优化的数据查询以更快的速度为您提供所需的数据。高效有效的 Hive 查询可以减少 50% 的执行时间。当您的数据处理框架运行得更快时，好处就会增加。

回答这个问题首先要准确理解 Hive 到底是什么。 Apache Hive 是一个在 Hadoop 之上开发的开源数据仓库平台，用于执行数据分析和分布式处理。 Facebook 创建了 Apache Hive 以减少编写 Java MapReduce 平台所需的工作。

大数据流程需要快速准确地处理大量不同的数据，以提供高度可行的见解。如果手动完成，这是一项不可能完成的任务。 Hive 的存在是为了简化大数据处理，并通过快速 Hive 查询将原始数据转化为可操作的内容。

使用 Hive 进行查询和数据分析比使用 MapReduce 框架更容易、更快，即使在处理大型数据集时也是如此。为简单起见，我们将重点关注 MapReduce 作为主要执行引擎，了解 Hive 还可以利用 Tez、Tez LLAP 和 Spark。 MapReduce 是一个低级平台，需要多个自定义程序才能运行。开发人员必须熟悉 Java，它已经是一个复杂的平台，才能充分利用 MapReduce。相比之下，您无需成为 Java 专家即可使用 Hive。

通常，Hive 查询只是对信息的请求。当在数据科学和计算机编程的上下文中使用时，Hive 查询是同一回事。不同之处在于信息直接来自数据库。

Hive 查询不仅仅是随机信息请求。您要检索的信息必须具体。因此，您可以使用一组预定义代码和数据库原生的编程语言来编写和优化 Hive 查询。一旦数据库收到并理解该指令，它就会收集查询中指定的所有信息并发布您请求的数据。

要真正从您的查询中获得最大价值，它们必须写得很好并且经过专业调整。但在此之前，让我们深入了解您需要了解的关于它们的其他信息。

用于创建数据库管理任务和流程的标准编程语言称为结构化查询语言 (SQL)。但是，SQL 并不是使用 Hive 执行查询和数据分析的唯一编程语言。 AQL、Datalog 和 DMX 也是流行的选择。

Hive 查询语言或 HiveQL 是一种类似于 SQL 的声明性语言。 HiveQL 所做的是将这些查询转换为 MapReduce 程序。它还使开发人员能够通过将复杂的 MapReduce 程序替换为 Hive 查询来处理和分析结构化和半结构化数据。

任何熟悉 SQL 命令的开发人员都会发现使用 Hive 查询语言创建请求很容易。

分区、表和桶的创建

您可以在 Hive 中创建查询，以将存储在 Hadoop 文件中的大型数据集分类到表、分区和存储桶中。在每个模型中，您根据分区或列键对相同类型的数据进行分组。可以有一个或多个分区键来帮助查明特定分区。分区数据集加速了对数据切片的查询。

ETL 功能

在将数据加载到其目标数据存储之前，您需要使用 ETL（提取、转换和加载）功能清理、准备和转换该数据。 Hive 查询可以做到这一点。数据通常从源中提取，然后存储在通用或兼容的存储中，例如 Azure Data Lake Storage 或 Azure Storage blob。然后一系列查询转换数据。在此之后，数据在 Apache Hive 中进行组织，然后再批量加载到其目标数据仓库中。

创建用于合并不同数据表的连接

Hive 查询可以包括连接，这是一种用于通过使用每个表共享的值来组合来自两个或多个表的特定字段或记录的功能。联接在速度方面以指数方式提高 Hive 查询的效率，具体取决于查询的编写方式。例如，当它们首先对最小表进行流式处理，最后对最大表进行流式传输时，带有连接子句的查询执行得更快，而不是相反。

有四种类型的连接，对每一种类型的深入了解将帮助用户选择正确的连接来使用——并编写正确的查询。这四种类型的连接是：

按查询排序

HiveQL 中的 ORDER BY 语法使用“SELECT”语句来帮助对数据进行排序。此语法遍历 Hive 表上的列，以按照“Order by”子句中的说明查找和筛选特定列值。查询只会选取 Order by 子句中提到的列名，并以升序或降序显示匹配的列值。

按查询分组

当 Hive 查询带有“GROUP BY”时，它会探索 Hive 表上的列并收集 group by 子句中提到的所有列值。查询将仅查看名称定义为“group by”子句的列，并将通过对特定和匹配的列值进行分组来显示结果。

按查询排序

当 Hive 查询带有“排序依据”子句时，它会遍历查询定义的名称下的列。执行后，查询会探索 Hive 表的列以对输出进行排序。如果您使用“DESC”指令按查询排序，您将按降序排序和显示结果。带有“ASC”的查询将执行升序排序并以类似方式显示结果。

按查询聚类

带有 CLUSTER BY 子句或命令的 Hive 查询通常部署在查询中以同时执行 DISTRIBUTE BY 和 SORT BY 的功能。此特定查询可确保对所有输出数据文件进行绝对排序或排序。

分配方式

DISTRIBUTE BY 指令确定输出如何在 MapReduce 作业中的缩减程序之间分配。 DISTRIBUTE BY 的功能类似于 GROUP BY 子句，因为它管理如何将数据行加载到 reducer 中进行处理。

查看另一篇博文，您将在其中了解如何通过 Hive 查询优化来充分利用 Hive 查询。

以下是您在管理 Hive 查询时会遇到的常见命令的简要介绍。

Hive 数据定义语言 (DDL) 命令

Apache Hive 备忘单是一个包含所有 Apache Hive 语法和函数的五部分摘要。为开发人员和大数据工程师提供参考或指导。

Apache Hive 备忘单分为以下部分：

Hive 查询会消耗资源。在大数据的世界里，资源就是金钱，资源的低效利用可能会阻碍任何组织。因此，Hive 查询优化对于将资源消耗保持在最低水平、运营成本可控以及整体性能处于最佳水平至关重要。

以下是优化 Hive 查询的一些有效方法：

针对我们所有的查询优化您的方法至关重要。 Pepperdata 为企业提供大数据优化解决方案，旨在为他们的查询、Query Spotlight 以及他们的所有堆栈、应用程序、流程等提供全面的可见性和可观察性。用户享受实时性能报告和数据驱动的建议，以优化其大数据基础架构及其所有组件的性能，同时显着降低运营成本。

作者 east

Hive 4月 2,2023

如何把cdh中hive存储在表数据转换为pgsql

要把cdh中hive存储在表数据转换为pgsql，您可能需要以下步骤：

DROP TABLE IF EXISTS TestHiveTableCSV;
CREATE TABLE TestHiveTableCSV ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' AS SELECT * FROM TestHiveTable;

在CDP Data Lake集群上使用以下命令将CSV文件复制到本地目录：

hadoop fs -copyToLocal /user/hive/warehouse/testhivetablecsv /tmp

在本地目录上使用以下命令将CSV文件导入到pgsql数据库：

psql -d testdb -c "COPY testpgtable FROM '/tmp/testhivetablecsv' WITH (FORMAT csv);"

作者 east

Hive 1月 24,2023

数仓开发常用hive命令

在做数仓开发或指标开发时，是一个系统工程，要处理的问题非常多，经常使用到下面这些hive命令：

内部表转外部表

alter table ${tablename} set tblproperties (‘EXTERNAL’=True’);

外部表转内部表

alter table ${tablename} set tblproperties (‘EXTERNAL’=False’);

显示分区

show partitions ${tablename};

创建分区

alter table ${tablename} add if not exists partition(dt=’2022-11-08′)

删除分区

alter table ${tablename} drop partition(dt=’2022-11-21′)

修改分区

alter table ${tablename} partition(dt=’2022-11-08′) rename to partition(dt=’2022-11-21′)

获取table详细描述信息、存储格式等

desc formatted ${tablename}

修改hive表路径

alter table ${tablename} set location ‘${warehouse.dir}’

hive加载本地数据到分区表

load data local inpath ‘/tmp/test.txt’ into table ${tablename} partition (dt=’2022-11-08′);

加载本地目录的数据到分区表

load data inpath ‘/tmp’ into table ${tablename} partition (dt=’2022-11-08′);

排他锁解锁

set hive.support.concurrency=true;

set hive.txn.manager = org.apache.hadoop.hive.ql.lockmgr.DummyTxnManager;

设置session具有Admin权限

set role admin;

授予所有权限给某个用户

grant all on ${dbName} to user {userName};

查看指定用户在所有库下面的权限

show grant user {userName};

查看指定用户在某个库的权限

show grant user {userName} on database {dbName};

授予某个库的权限给某个用户

grant select on database {dbName} to user {userName};

grant insert on database {dbName} to user {userName};

grant update on database {dbName} to user {userName};

grant delete on database {dbName} to user {userName};

Hive赋予用户某表权限

grant create on database {dbName} to user {userName};

grant select on table 库名.表名 to user 用户名 ;

grant insert on table {dbName}.tableName to user {userName};

grant update on table {dbName}.tableName to user {userName};

grant delete on table {dbName}.tableName to user {userName};

作者 east

Hive, Spark 1月 19,2023

Spark SQL或Hive开发调试小技巧

在本地开发机装本地模拟环境，或者能远程调试，可以参考Spark如何在生产环境调试
输出dataframe日志，最好有一个开关来控制，正式上线时，把开关关了来提升速度

if (isDebug) {
  dataframeDF.show(10)
}

dataframe的输出，有时看得不是很清楚，可以生成临时表来记录中间过程，方便对中间过程进行查看 insertHive(resultDF, “dataframe_temp”)
如果是运行的数据比较大，调试起来要等，可以对dataframe进行限定条数或筛选 dataframe.limit(1000) dataframe.filter(” id = ‘ewgwgs’ “)
对复杂的sql，一步到位写起来爽，出问题了不知是哪一步出问题，可以分解出几个简单sql，每一步都有输出，对照结果方便找出问题。
对复杂计算的，写的代码觉得似是而非，可以先整理一个样例，手动写计算过程，然后用代码对照这些过程来一步步实现。

作者 east

Hive 11月 3,2022

解决CDH 6.3.2 Hue访问Hive自定义用户密码验证

在前面文章介绍了
CDH 6.3.2 Hive自定义用户名密码验证，如果hue配置不做更改的话，在hue中看不到hive的数据库和执行不了命令，hue会报“thrift TSocket read 0 bytes” 、“
Bad status: 3 (Error validating the login) (code THRIFTTRANSPORT) ”等错误。

解决方法:

（1）修改hue的python代码

cd /opt/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/lib/hue/apps/beeswax/src/beeswax/server
vi hive_server2_lib.py
增加红框中的’CUSTOM’

（2）修改hue的配置
在hue的配置页面，搜索”hue_safety_valve” ,找到hue_safety_valve.ini
添加下面代码：（
auth_username 是在hive的hive-site.xml中配置的，不同的是hive-site的
auth_password 是工具处理后，hue这里的配置需要处理前的原始密码）

[desktop]

auth_username=hdfs
auth_password=未加密前的密码

然后重启hue

作者 east

Hive 11月 3,2022

CDH 6.3.2 Hive自定义用户名密码验证

为了增强hive的安全性，可以自定义用户名密码验证。

首先写成相应的工具类

import javax.security.sasl.AuthenticationException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hive.conf.HiveConf;
import org.slf4j.Logger;
public class CustomPasswdAuthenticator implements org.apache.hive.service.auth.PasswdAuthenticationProvider{
    private Logger LOG = org.slf4j.LoggerFactory.getLogger(CustomPasswdAuthenticator.class);
    private static final String HIVE_JDBC_PASSWD_AUTH_PREFIX="hive.jdbc_passwd.auth.%s";
    private Configuration conf=null;
    @Override
    public void Authenticate(String userName, String passwd)  
              throws AuthenticationException {  
            LOG.info("user: "+userName+" try login.");  
            String passwdConf = getConf().get(String.format(HIVE_JDBC_PASSWD_AUTH_PREFIX, userName));  
            if(passwdConf==null){  
              String message = "user's ACL configration is not found. user:"+userName;  
              LOG.info(message);  
              throw new AuthenticationException(message);  
            }   
            if(!passwd.equals(passwdConf)){  
              String message = "user name and password is mismatch. user:"+userName;  
              throw new AuthenticationException(message);  
            }  
          }  
          public Configuration getConf() {  
            if(conf==null){  
              this.conf=new Configuration(new HiveConf());  
            }  
            return conf;  
          }  
          public void setConf(Configuration conf) {  
            this.conf=conf;  
          }
}

把这个工具类打包成jar包放在hive根目录的lib目录下，
/opt/cloudera/parcels/CDH/lib/hive/lib/hiveAuth.jar

HDFS修改core-site.xml配置

搜索 core-site.xml

core-site.xml 的群集范围高级配置代码段（安全阀）

<property>   
  <name>hadoop.proxyuser.hadoop.hosts</name>  
   <value>*</value> </property>
 <property>    
 <name>hadoop.proxyuser.hadoop.groups</name>   
  <value>*</value> 
</property>

Hive修改hive-site.xml配置

<property>
    <name>hive.security.authorization.enabled</name>
    <value>true</value>
</property>
<property>
    <name>hive.security.authorization.createtable.owner.grants</name>
    <value>ALL</value>
</property>
<property>
    <name>hive.security.authorization.task.factory</name>
    <value>org.apache.hadoop.hive.ql.parse.authorization.HiveAuthorizationTaskFactoryImpl</value>
</property>
<property>
    <name>hive.users.in.admin.role</name>
    <value>hdfs</value>
</property>
<property>
    <name>hive.server2.authentication</name>
    <value>CUSTOM</value>
</property>
<property>
    <name>hive.server2.custom.authentication.class</name>
    <value>org.apache.hadoop.hive.contrib.auth.CustomPasswdAuthenticator </value>
</property>

<property>
    <name>hive.jdbc_passwd.auth.hdfs</name>
    <value>2ad4fed18d94500baa7dcf70fd7b1ecf</value>
</property>

重启hadoop和hive

作者 east

Hive 8月 15,2022

用Sqoop 从Hive导入到mysql发生java.lang.NumberFormatException异常

用CDH自带的sqoop，把hive的数据导入到sqoop，发生java.lang.NumberFormatException异常

在Yarn查找到详细日志如下：

java.lang.NumberFormatException
	at java.math.BigDecimal.<init>(BigDecimal.java:494)
	at java.math.BigDecimal.<init>(BigDecimal.java:383)
	at java.math.BigDecimal.<init>(BigDecimal.java:806)
	at org.apache.sqoop.mapreduce.hcat.SqoopHCatExportHelper.convertStringTypes(SqoopHCatExportHelper.java:271)
	at org.apache.sqoop.mapreduce.hcat.SqoopHCatExportHelper.convertToSqoop(SqoopHCatExportHelper.java:211)
	at org.apache.sqoop.mapreduce.hcat.SqoopHCatExportHelper.convertToSqoopRecord(SqoopHCatExportHelper.java:134)
	at org.apache.sqoop.mapreduce.hcat.SqoopHCatExportMapper.map(SqoopHCatExportMapper.java:56)
	at org.apache.sqoop.mapreduce.hcat.SqoopHCatExportMapper.map(SqoopHCatExportMapper.java:35)
	at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:146)
	at org.apache.sqoop.mapreduce.AutoProgressMapper.run(AutoProgressMapper.java:64)
	at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:799)
	at org.apache.hadoop.mapred.MapTask.run(MapTask.java:347)
	at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:174)
	at java.security.AccessController.doPrivileged(Native Method)
	at javax.security.auth.Subject.doAs(Subject.java:422)
	at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1875)
	at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:168)

想到可能是定义的mysql表结构，Decimal类型转化出问题。有可能是decimal没有定义精度，尝试先改为string类型，再用sqoop导入hive到mysql中，一切正常，在mysql也顺利看到数据了。

作者 east

Hive 8月 10,2022

Oozie重复执行和Container exited with a non-zero exit code 143

写了1个比较复杂的spark任务，用shell脚本来执行。用shell脚本直接执行时一点问题都没有。但用hue配置了Oozie任务后，经常执行不到一半就中断，看到又重复执行，但没多久就中止了。

查了很久原因，后来在yarn的Oozie执行日志找到下面这个

[2022-08-04 17:05:36.981]Container killed on request. Exit code is 143
[2022-08-04 17:05:36.998]Container exited with a non-zero exit code 143.

通过各种相关关键字在网上找原因和解决方案，后来在差不多放弃时，看到一个留言：

通过将部署模式从客户端更改为群集解决了此问题。我正在从oozie应用程序触发spark作业。因此，在客户端模式下，驱动程序将在oozie JVM上启动。为了避免这种情况，我将模式设置为集群。

进行修改尝试，果然顺利执行成功：

spark-submit –master yarn –deploy-mode cluster –class com.xxx.Test –jars hdfs://cdh1:8020/data/apps/jars/fastjson-1.2.51.jar,hdfs://cdh1:8020/data/apps/jars/hive-jdbc-2.1.1-cdh6.3.2-standalone.jar –conf spark.yarn.maxAppAttempts=0 –driver-memory 2g –driver-cores 1 –executor-memory 3200m –executor-cores 3 –num-executors 4 hdfs://cdh1:8020/data/apps/test.jar

作者 east

分类归档Hive