Impala – gitweixin

Hive, Impala 9月 23,2024

Hive/Impala利用时间窗口函数巧妙实现2种不同类型数据间隔出现

在做一个需求，要求计算在不同时间段的多个最大值（波峰）和最小值（波谷），并且要求波峰和波谷是间隔出现的。

原始数据如下：

要求按时间（ptime)排序，同1个soc_id必须是1个peak和1个valley间隔，可能会有波峰波谷间隔出现多个；有多个peak连续出现时，取pvalue最大值（如果都相同取第一个值）；有多个valley连续出现时，取pvalue最小值（如果都相同取第一个值）

实现代码如下：

WITH LagResult AS (
— 计算每一行的前一行的 peak_or_valley 值，用于后续分组
SELECT
soc_id,
ds,
ptime,
pvalue,
peak_or_valley,
LAG(peak_or_valley) OVER (PARTITION BY soc_id ORDER BY ptime) AS prev_peak_valley
FROM
your_table
),
GroupedPeaksAndValleys AS (
— 基于 LAG 结果生成每个 peak 和 valley 的分组编号
SELECT
soc_id,
ds,
ptime,
pvalue,
peak_or_valley,
— 通过对比当前值和前一个值是否不同来创建组号
SUM(CASE WHEN peak_or_valley != prev_peak_valley THEN 1 ELSE 0 END)
OVER (PARTITION BY soc_id ORDER BY ptime ASC) AS group_id
FROM
LagResult
),
FilteredPeaksAndValleys AS (
— 按每个分组的 peak 和 valley 排序，并选取最大或最小的 pvalue
SELECT
soc_id,
ds,
ptime,
pvalue,
peak_or_valley,
group_id,
ROW_NUMBER() OVER (PARTITION BY soc_id, group_id ORDER BY
CASE WHEN peak_or_valley = ‘peak’ THEN pvalue END DESC, — 对 peak 按 pvalue 降序
CASE WHEN peak_or_valley = ‘valley’ THEN pvalue END ASC, — 对 valley 按 pvalue 升序
ptime ASC — 在相同 pvalue 的情况下按 ptime 升序
) AS rn
FROM
GroupedPeaksAndValleys
)
SELECT
soc_id,
ds,
ptime,
pvalue,
peak_or_valley
FROM
FilteredPeaksAndValleys
WHERE
rn = 1 — 只保留每个 group 中的第一个，即 pvalue 最大/最小且时间最早的记录
ORDER BY
soc_id, ptime;

在上面的代码：

LagResult CTE: 首先，我们通过 LAG() 函数计算出每行的前一个 peak_or_valley，这为后续分组做准备。
GroupedPeaksAndValleys CTE: 使用 SUM(CASE ...) OVER 来生成分组编号（group_id）。当当前的 peak_or_valley 与前一个不同的时候，我们将分组编号加 1，从而将连续的相同 peak 或 valley 分为一组。
FilteredPeaksAndValleys CTE: 对每个 group_id 中的 peak 和 valley 排序，选择 pvalue 最大（对于 peak）或最小（对于 valley）的记录，确保在 pvalue 相同时选择时间最早的记录。
最终结果: 按时间 (ptime) 排序，输出满足要求的 peak 和 valley 数据。

这个查询避免了嵌套窗口函数的限制，能够正确处理连续的 peak 和 valley，并选取最大或最小的 pvalue。

作者 east

Impala 6月 14,2024

如何查看Impala集群的状态和日志

查看Impala集群状态

使用Impala Shell
- 登录到任何集群节点，通过Impala Shell可以查询集群状态。执行命令 invalidate metadata; 可以强制Impala重新加载元数据，有助于识别任何元数据同步问题。此外，可以运行简单的SQL查询（如 SELECT * FROM some_table LIMIT 1;）来测试连接和查询功能。
Impala Web UI
- 访问Impala的Web界面可以直观地查看集群状态、查询历史、性能指标等。
- 访问Catalogd UI：在EMR控制台或直接通过集群IP和端口访问Catalogd组件的Web UI。通常端口号可能是25020，具体取决于你的集群配置。进入 /metrics 标签页查看详细信息。
- Impala Daemon UI：如果有配置，也可以通过Impalad的Web界面（通常端口是25000或25005）查看特定节点的运行状态。
Statestored状态
- 通过Statestored守护进程的状态可以了解所有Impalad实例的健康状况。尽管直接访问Statestored的Web UI不太常见，但可以通过Impala的管理命令或日志来间接判断其状态。

查看Impala日志

日志文件位置
- Impala的日志文件通常位于每个节点的特定目录下，例如 /var/log/impala/。具体路径可能因安装配置不同而有所差异。
- 主要有三类日志：Impalad（Impala守护进程）、Statestored（状态存储守护进程）和Catalogd（元数据服务）的日志。
查看日志内容
- 使用SSH登录到集群中的任一节点，然后使用文本编辑器（如vim或less）查看相关日志文件。
- 例如，查看Impalad的日志可以使用 less /var/log/impala/impalad.INFO，具体文件名可能包含日期和时间戳，如 impalad.INFO.20240614。
日志分析
- 日志中通常包含了查询执行的详细信息、错误消息、警告和其他诊断信息。如果遇到问题，可以搜索关键词如 “ERROR”、“WARN” 或具体的错误码来定位问题。
- 使用grep、awk等命令行工具可以帮助快速筛选和分析日志内容。

实用命令和工具

impala-admin 工具：Impala提供了一些管理命令，如 impala-admin 可以用来收集诊断信息，运行健康检查等。
impala-shell 的 SHOW 命令：在Impala Shell中使用 SHOW 命令可以查看集群的许多信息，如 SHOW DATABASES;, SHOW TABLES;, SHOW FUNCTIONS; 等。

作者 east

分类归档Impala