east – 第19页 – gitweixin

储能, 数据仓库 9月 25,2024

离线数仓月度统计要注意时间窗口问题（跨天统计导致违背现实物理规律）

在做物联网项目，要按月统计电压差和温度差时，刚开始最容易想到的是找出当月电压最大值和电压最小值，然后按求压差。最后统计结果是压差都很大。而实际上，是要找出某个小的周期内的温差，这种跨很大时间范围的压差并没有实际意义。

下面是先按天计算最大值，然后再按当月求最大值的sql:

SELECT ds, 
       max(max_diff_u) AS daily_max_diff 
FROM (
    SELECT ds, 
           cu, 
           max(value) - min(value) AS max_diff_u 
    FROM (
        SELECT id, 
               value, 
               ds 
        FROM your_table_name e 
        WHERE pid rlike '\\.U$' 
          AND (char_length(pid) - char_length(REPLACE(pid, '.', ''))) = 8 
          AND ds <= '${yes_date}' 
          AND (value < 4.9 OR value > 2.5) 
          AND ds >= from_timestamp(DATE_TRUNC('MONTH', from_unixtime(cast(unix_timestamp('${yes_date}','yyyyMMdd') AS bigint))), 'yyyyMMdd')
    ) AS daily_values 
    GROUP BY ds, pid
) AS daily_diffs 
GROUP BY ds
ORDER BY ds;

作者 east

Android 9月 25,2024

Android热修复技术是如何保证修复过程中的安全性的？

Android热修复技术通过多种手段确保修复过程的安全性：

类加载器隔离：热修复技术通常利用Java的类加载器机制来隔离旧版本和新版本的代码。通过创建新的类加载器来加载修复补丁，这样可以在不影响现有应用运行的情况下，逐步替换错误的类。这种隔离策略防止了新旧代码之间的直接冲突，确保了应用的稳定性。
双亲委托模型：Android的类加载器遵循双亲委托模型，这意味着在尝试加载一个类之前，会先委托给其父加载器加载。这种设计有助于保护系统类不被随意覆盖，增加了安全性。
代码验证：在加载修复代码之前，热修复框架会进行一系列的验证步骤，包括签名验证和完整性校验，以确保补丁来源可靠且未被篡改。这一步骤是防止恶意代码注入的关键安全措施。
监控和回滚机制：热修复框架通常内置监控机制，用于跟踪修复后的应用表现。如果检测到问题，可以迅速回滚到修复前的状态，从而最小化潜在风险。
兼容性测试：在部署热修复之前，会进行广泛的测试，以确保修复在不同版本和配置的设备上都能正常工作。这有助于识别和解决可能导致应用崩溃或行为异常的兼容性问题。

作者 east

Android 9月 25,2024

为什么说热修复相比于传统更新方式更受用户欢迎？

热修复技术相比于传统更新方式受到用户欢迎的原因主要包括以下几点：

无需重新安装应用：热修复通过下发补丁包，允许已安装的客户端动态更新，用户无需手动下载和安装新版本，从而提供了更加流畅的用户体验。
实时修复问题：热修复能够实现实时修复，一旦检测到问题，可以立即推送补丁，减少了问题对用户造成的影响。
减少用户等待时间：用户不需要等待应用商店审核和新版本的下载，补丁通常体积较小，可以通过移动网络快速下载并应用，显著缩短了修复时间。
提高修复成功率：热修复技术通常具有较高的修复成功率，能够将应用中的缺陷降至最低，保障了应用的稳定性和可靠性。
最小化应用中断：由于热修复不需要重启应用，因此在修复过程中用户可以继续使用应用，不会因为更新而导致服务中断。
降低维护成本：开发者可以快速响应和解决线上问题，减少了紧急发布新版本的频率，从而降低了维护成本和复杂性。

作者 east

Android 9月 25,2024

常见的Android热修复框架

Android热修复框架允许开发者在不更新应用程序的情况下修复生产环境中出现的问题。根据最新的信息，以下是一些市场上常见的Android热修复框架：

Tinker：由腾讯开发，支持Java层的热修复，包括dex和so文件的增量更新。
Robust：美团开发的热修复框架，支持实时热修复，兼容所有Android版本，并且已经适配了Google的R8代码优化工具。
AndFix：阿里巴巴开源的热修复框架，支持从Android 2.3到7.0的版本，但已停止更新。
Sophix：阿里巴巴的热修复解决方案，是AndFix的升级版，提供了全面的升级和改进。
Qzone超级补丁框架：腾讯QQ空间团队开发的热修复框架，采用dex分包方案，但未开源。
QFix：手Q团队开源的热修复框架，同样基于dex分包方案。

作者 east

海豚调度器 9月 24,2024

海豚调度器如何设置上游的表生成数据成功才继续执行

在海豚调度器（Dolphin Scheduler）1.3.5 中，你可以通过以下步骤设置工作流中的任务，以检查 Hive 表是否为空，并根据结果决定是否执行后续任务。以下是详细步骤：

步骤 1: 创建 Hive 表检查任务

创建一个 Shell 脚本任务：该任务将执行 Hive 查询以检查指定表是否为空。
- 在 Dolphin Scheduler 中，创建一个新的任务，选择 Shell 作为任务类型。
- 编写脚本如下：

#!/bin/bash
# 检查 Hive 表是否为空
HIVE_TABLE_NAME="your_hive_table_name"  # 替换为你的 Hive 表名

COUNT=$(hive -S -e "SELECT COUNT(*) FROM ${HIVE_TABLE_NAME};")

if [ "$COUNT" -eq 0 ]; then
    echo "Table is empty"
    exit 1  # 返回非零值表示表为空
else
    echo "Table is not empty"
    exit 0  # 返回零值表示表不为空
fi

保存并命名该任务，例如命名为 check_hive_table_empty。

步骤 2: 创建后续任务

创建后续的任务：这些任务将根据 Hive 表是否为空而决定是否执行。例如，创建一个新的任务，命名为 run_after_check。
设置相应的任务逻辑。这些可以是任何你需要执行的操作，比如数据处理、报告生成等。

步骤 3: 设置任务依赖关系

创建一个工作流：在 Dolphin Scheduler 中创建一个新的工作流。
添加任务：
- 将 check_hive_table_empty 任务添加到工作流中。
- 将 run_after_check 任务也添加到工作流中。
设置依赖关系：
- 选择 run_after_check 任务，设置其依赖于 check_hive_table_empty 任务。
- 在依赖配置中，选择“成功”状态。这意味着只有当 check_hive_table_empty 任务成功运行且表不为空时，run_after_check 才会被执行。

步骤 4: 测试和验证工作流

启动工作流：手动启动工作流，观察任务的执行情况。
查看日志：检查 check_hive_table_empty 的日志，确认其正确判断了 Hive 表是否为空。
验证后续任务：根据 Hive 表的状态，确认后续任务是否被正确执行或跳过。

注意事项

确保 Hive 和 Dolphin Scheduler 的连接正常。
检查权限设置，确保你有权限访问 Hive 表。
可以根据需要调整任务超时时间和重试策略，以确保工作流的稳定性。

通过以上步骤，你能够在 Dolphin Scheduler 中实现根据 Hive 表内容动态控制工作流的执行。

作者 east

Hadoop 9月 23,2024

HDFS HA中的JournalNode集群有什么作用？

HDFS HA（High Availability）模式下，JournalNode集群扮演着至关重要的角色。在这种配置中，NameNode的主备切换不再依赖共享存储，而是通过Zookeeper协调多个Active NameNode之间的状态同步。JournalNode集群负责维护这些NameNode的编辑日志（Edit Logs），确保数据的一致性和高可用性。

JournalNode集群的主要作用

日志复制与持久化：JournalNode集群接收来自主NameNode的编辑日志，并将其复制到所有其他JournalNodes上，实现日志的高可用性。即使部分JournalNode失败，只要半数以上的节点存活，就能保证编辑日志的完整性。
支持快速故障转移：在主NameNode发生故障时，备用NameNode可以利用保存在JournalNode集群中的编辑日志迅速接管，减少服务中断时间。
避免单点故障：通过分布式的JournalNode集群，HDFS避免了依赖单一共享存储系统的风险，提高了整个文件系统的可靠性。
简化管理：管理员无需担心共享存储的复杂配置和潜在瓶颈，JournalNode集群的管理相对简单，易于扩展。

JournalNode集群的设计是HDFS实现高可用性的关键组成部分，它通过分布式日志记录和复制机制，确保了Hadoop文件系统在面对硬件故障时能够持续稳定地运行。

作者 east

Hadoop 9月 23,2024

HDFS HA中的ZKFC组件具体是如何工作的？

HDFS高可用性（HA）架构中，ZooKeeper Failover Controller（ZKFC）负责管理NameNode的故障转移。ZKFC通过与ZooKeeper集群交互来监控Active NameNode的状态，并在检测到Active NameNode失败时协调Standby NameNode的接管过程。

ZKFC的工作流程如下：

初始化和注册：ZKFC启动时，它会在ZooKeeper中创建特定的节点来表示自己的存在，并订阅Active NameNode的Z节点，以便接收其健康状态更新。
状态监控：ZKFC持续监控Active NameNode在ZooKeeper中的状态。如果Active NameNode正常运行，它会定期向ZooKeeper发送心跳信号。
故障检测：如果ZKFC在预定时间内未收到Active NameNode的心跳信号，它会认为Active NameNode已经失败。
故障转移协调：一旦检测到Active NameNode失败，ZKFC会在ZooKeeper中修改状态，触发故障转移流程。它会确保所有的FailoverControllers达成一致，然后指导Standby NameNode完成启动过程，成为新的Active NameNode。
客户端重定向：ZKFC还负责通知客户端关于新Active NameNode的信息，确保客户端能够连接到新的主NameNode上继续操作。

通过这种机制，ZKFC确保了HDFS集群在Active NameNode发生故障时能够迅速恢复服务，从而提高了整个文件系统的可用性和可靠性。

作者 east

Hive, Impala 9月 23,2024

Hive/Impala利用时间窗口函数巧妙实现2种不同类型数据间隔出现

在做一个需求，要求计算在不同时间段的多个最大值（波峰）和最小值（波谷），并且要求波峰和波谷是间隔出现的。

原始数据如下：

要求按时间（ptime)排序，同1个soc_id必须是1个peak和1个valley间隔，可能会有波峰波谷间隔出现多个；有多个peak连续出现时，取pvalue最大值（如果都相同取第一个值）；有多个valley连续出现时，取pvalue最小值（如果都相同取第一个值）

实现代码如下：

WITH LagResult AS (
— 计算每一行的前一行的 peak_or_valley 值，用于后续分组
SELECT
soc_id,
ds,
ptime,
pvalue,
peak_or_valley,
LAG(peak_or_valley) OVER (PARTITION BY soc_id ORDER BY ptime) AS prev_peak_valley
FROM
your_table
),
GroupedPeaksAndValleys AS (
— 基于 LAG 结果生成每个 peak 和 valley 的分组编号
SELECT
soc_id,
ds,
ptime,
pvalue,
peak_or_valley,
— 通过对比当前值和前一个值是否不同来创建组号
SUM(CASE WHEN peak_or_valley != prev_peak_valley THEN 1 ELSE 0 END)
OVER (PARTITION BY soc_id ORDER BY ptime ASC) AS group_id
FROM
LagResult
),
FilteredPeaksAndValleys AS (
— 按每个分组的 peak 和 valley 排序，并选取最大或最小的 pvalue
SELECT
soc_id,
ds,
ptime,
pvalue,
peak_or_valley,
group_id,
ROW_NUMBER() OVER (PARTITION BY soc_id, group_id ORDER BY
CASE WHEN peak_or_valley = ‘peak’ THEN pvalue END DESC, — 对 peak 按 pvalue 降序
CASE WHEN peak_or_valley = ‘valley’ THEN pvalue END ASC, — 对 valley 按 pvalue 升序
ptime ASC — 在相同 pvalue 的情况下按 ptime 升序
) AS rn
FROM
GroupedPeaksAndValleys
)
SELECT
soc_id,
ds,
ptime,
pvalue,
peak_or_valley
FROM
FilteredPeaksAndValleys
WHERE
rn = 1 — 只保留每个 group 中的第一个，即 pvalue 最大/最小且时间最早的记录
ORDER BY
soc_id, ptime;

在上面的代码：

LagResult CTE: 首先，我们通过 LAG() 函数计算出每行的前一个 peak_or_valley，这为后续分组做准备。
GroupedPeaksAndValleys CTE: 使用 SUM(CASE ...) OVER 来生成分组编号（group_id）。当当前的 peak_or_valley 与前一个不同的时候，我们将分组编号加 1，从而将连续的相同 peak 或 valley 分为一组。
FilteredPeaksAndValleys CTE: 对每个 group_id 中的 peak 和 valley 排序，选择 pvalue 最大（对于 peak）或最小（对于 valley）的记录，确保在 pvalue 相同时选择时间最早的记录。
最终结果: 按时间 (ptime) 排序，输出满足要求的 peak 和 valley 数据。

这个查询避免了嵌套窗口函数的限制，能够正确处理连续的 peak 和 valley，并选取最大或最小的 pvalue。

作者 east

Android 9月 23,2024

如何处理Activity在不同设备配置变化时的生命周期问题？

在Android开发中，处理Activity在不同设备配置变化时的生命周期问题通常涉及到对onConfigurationChanged()方法的重写以及配置变更监听器的设置。以下是一些关键步骤和建议：

声明配置变更监听：
在AndroidManifest.xml文件中，对于需要响应配置变化的Activity，需要在<activity>标签内添加android:configChanges属性，并指定相应的配置类型，如屏幕方向、键盘可用性等。
重写onConfigurationChanged()方法：
在Activity中重写onConfigurationChanged(Configuration newConfig)方法，以便在配置发生变化时执行自定义逻辑。这个方法会在配置实际改变之前被调用，允许开发者保存状态或更新UI。
管理资源和状态：
在onConfigurationChanged()方法内部，根据新的配置信息来管理资源和应用状态。例如，如果配置变化包括屏幕方向的改变，可能需要重新加载布局资源或者调整控件的大小和位置。
避免不必要的Activity重建：
通过声明android:configChanges，可以告诉系统在这些配置变化发生时不需要销毁并重新建Activity。这样可以避免不必要的资源消耗和潜在的性能问题。
测试不同配置：
确保在多种设备配置上进行测试，以验证Activity能够正确地处理配置变化。这包括不同尺寸的屏幕、不同的语言和地区设置等。
考虑使用Fragment：
对于复杂的界面，可以考虑使用Fragment来封装可重用的UI部分，这样即使在配置变化时也能更灵活地管理界面的重构。

作者 east

Flink 9月 23,2024

Flink Lookup Join在性能优化方面都提供了哪些机制？

Apache Flink的Lookup Join是一种特殊类型的连接操作，它允许流表与外部数据库中的维表进行实时关联。在性能优化方面，Flink提供了以下几种机制：

同步和异步查询机制：Flink支持通过查询提示开启同步和异步查询模式。在异步模式下，可以并发地向维表发送多个数据项的查询请求，这样可以减少等待单个查询响应的时间，从而提高整体的查询性能。
Ordered和Unordered查询机制：在异步查询模式中，Flink还提供了Ordered和Unordered两种输出模式。Ordered模式需要等待所有数据查询完成并对数据进行排序后才能发送给下游，而Unordered模式不对输出顺序做要求，可以在查询到结果后立即发送，这样可以进一步提升性能。
Cache机制：Flink支持使用Cache机制来优化Lookup Join的性能。通过将维表数据缓存到内存中，可以减少对数据库的直接查询次数，加快数据检索速度。Flink提供了Full Caching（将所有数据缓存）和Partial Caching（使用LRU算法缓存最近使用的数据）两种缓存策略。
状态管理优化：Flink的状态后端（State Backends）和Checkpoint机制也对Lookup Join的性能有影响。选择合适的状态后端和调整Checkpoint间隔可以优化状态的存储和恢复，从而间接提升Lookup Join的性能。
查询提示（Query Hints）：Flink允许用户通过查询提示来指导优化器如何执行Lookup Join，这可以帮助优化器生成更高效的执行计划。

作者 east

Flink 9月 23,2024

Flink Lookup Join 相比传统Join有哪些优势？

Flink Lookup Join 的优势

Flink Lookup Join 相比传统的 Join 操作，在实时数据处理方面具有明显的优势：

低延迟查询：Lookup Join 能够根据键值动态查找外部维表中的数据，这对于需要快速响应的实时数据流处理场景非常适用。
异步查询：Flink 支持异步查找机制，这有助于提高查询性能和吞吐量，尤其是在处理大规模数据时。
高效的维度查询：通过将维表数据加载到内存中并进行索引，Lookup Join 提供了快速查找和关联维度数据的能力，减少了对外部存储系统的访问次数。
实时维度关联：Lookup Join 允许实时流数据与维表进行关联，这对于获取最新的维度信息至关重要，如在电商领域中将订单流与商品维表关联。
动态数据关联：适用于维表数据动态变化的场景，确保流数据处理过程中能够及时获取最新的维度信息。
事件时间关联：支持基于事件时间的关联操作，这在处理时间敏感的数据时尤为重要，如用户行为分析等。

作者 east