数据仓库 – gitweixin

储能, 数据仓库 9月 25,2024

离线数仓月度统计要注意时间窗口问题（跨天统计导致违背现实物理规律）

在做物联网项目，要按月统计电压差和温度差时，刚开始最容易想到的是找出当月电压最大值和电压最小值，然后按求压差。最后统计结果是压差都很大。而实际上，是要找出某个小的周期内的温差，这种跨很大时间范围的压差并没有实际意义。

下面是先按天计算最大值，然后再按当月求最大值的sql:

SELECT ds, 
       max(max_diff_u) AS daily_max_diff 
FROM (
    SELECT ds, 
           cu, 
           max(value) - min(value) AS max_diff_u 
    FROM (
        SELECT id, 
               value, 
               ds 
        FROM your_table_name e 
        WHERE pid rlike '\\.U$' 
          AND (char_length(pid) - char_length(REPLACE(pid, '.', ''))) = 8 
          AND ds <= '${yes_date}' 
          AND (value < 4.9 OR value > 2.5) 
          AND ds >= from_timestamp(DATE_TRUNC('MONTH', from_unixtime(cast(unix_timestamp('${yes_date}','yyyyMMdd') AS bigint))), 'yyyyMMdd')
    ) AS daily_values 
    GROUP BY ds, pid
) AS daily_diffs 
GROUP BY ds
ORDER BY ds;

作者 east

数据仓库 7月 15,2024

大数据质量监控方法与实现

一、引言

在大数据时代，数据的质量直接关系到企业决策的准确性和业务发展的稳定性。本文旨在详细介绍大数据环境下数据质量的标准、监控方法以及相应的代码实现，确保数据的准确性、完整性、一致性和可靠性。我们将结合具体中间件和代码示例，全面阐述如何实现高效的数据质量监控。

二、数据质量标准

数据质量通常通过以下几个维度来衡量：

准确性：数据应真实反映实际情况，无错误或偏差。
完整性：数据应包含所有必需的信息，无遗漏。
一致性：同一实体在不同数据源或不同时间点的数据应保持一致。
时效性：数据应及时更新，满足业务需求。
可用性：数据应易于访问和使用，无格式或权限障碍。

三、数据质量监控方法

数据质量监控可以从多个层次进行，包括任务基线级别、任务级别与表级别、字段级别以及报表级别。

1. 任务基线级别监控

任务基线级别监控主要关注整个数据流水线（ETL任务）的运行状态和产出情况。

监控内容：
- 所有任务运行时长：与昨天运行时长对比，异常则报警。
- 结果任务产出时间：与基线规定时间对比，未按时产出则预警。

实现方式：

使用Apache Airflow等调度工具管理ETL任务，通过任务日志和执行时间监控任务运行时长和产出时间。
配置Airflow的DAG（Directed Acyclic Graph）依赖关系，确保任务按序执行。

2. 任务级别 & 表级别监控

任务级别和表级别监控关注单个任务或表的运行状态和产出数据。

监控内容：
- 任务运行时长：与昨天运行时长对比。
- 任务产出时间：与任务规定产出时间对比。
- 表产出大小：与昨日分区大小对比。

实现方式：

在ETL任务中添加日志记录功能，记录任务开始时间、结束时间和产出数据大小。
使用Shell脚本或Python脚本定期检查日志文件，对比任务运行时长、产出时间和产出大小，异常则发送邮件或消息通知。

3. 字段级别监控

字段级别监控关注具体数据字段的质量，包括指标字段和维度字段。

监控内容：
- 指标字段：均值、最大值、最小值、中位数等，与昨天、近7天、近30天的数据进行对比。
- 维度字段：维度覆盖率、维度占比、维度下指标的波动。

实现方式：

使用Apache Spark进行大规模数据处理，通过Spark SQL计算字段的统计指标。
结合Deequ等开源数据质量监控工具，编写DQC（Data Quality Center）任务，自动化监控字段质量。

代码示例：使用Deequ监控字段质量

import com.amazon.deequ.VerificationSuite
import com.amazon.deequ.checks.Check
import com.amazon.deequ.checks.CheckLevel

val verificationSuite = VerificationSuite()
  .onData(spark.table("your_table"))
  .addCheck(
    Check(CheckLevel.Error, "Mean of metric field")
      .isComplete("metric_field")
      .hasMeanEqualTo(0.5, 0.01)
  )
  .addCheck(
    Check(CheckLevel.Warning, "Dimension coverage of gender")
      .isComplete("gender")
      .hasMin("gender", 0.9)
  )

val result = verificationSuite.run()
result.show()

4. 报表级别监控

报表级别监控将监控结果可视化，便于项目组所有人直观查看数据变化。

实现方式：
- 使用Tableau、Power BI等数据可视化工具，将监控结果绘制成趋势图、仪表盘等。
- 配置定时任务，自动更新报表数据。

作者 east

Hive, 数据仓库 6月 25,2024

在大数据如何检测源数据中的脏数据和异常数据

在大数据Hive中，检测源数据中的脏数据和异常数据可以通过以下几个步骤来实现：

数据质量检查规则定义：
首先，需要根据业务需求和数据特点，定义一系列数据质量检查规则。这些规则可以包括：
- 字段值域检查：例如，性别字段只允许有”男”、”女”或”未知”等值。
- 字段必填性检查：确保某些字段不能为空。
- 字段唯一性检查：确保某些字段（如身份证号）具有唯一性。
- 日期范围检查：确保日期字段在合理的范围内。
- 数值范围检查：确保数值字段在合理的范围内。
- 格式检查：例如，电话号码、邮箱地址等字段需要符合特定的格式。
使用Hive SQL和UDF进行数据质量检查：
根据定义的数据质量检查规则，使用Hive SQL查询和用户自定义函数（UDF）来检测脏数据和异常数据。以下是一些示例：
- 字段值域检查：SELECT * FROM your_table WHERE gender NOT IN ('男', '女', '未知');
- 字段必填性检查：SELECT * FROM your_table WHERE name IS NULL;
- 字段唯一性检查：SELECT id, COUNT(*) as cnt FROM your_table GROUP BY id HAVING cnt > 1;
- 日期范围检查（假设有一个名为date_column的日期字段）：SELECT * FROM your_table WHERE date_column < '2000-01-01' OR date_column > '2099-12-31';
- 数值范围检查（假设有一个名为age的数值字段）：SELECT * FROM your_table WHERE age < 0 OR age > 120;
- 格式检查（使用正则表达式）：SELECT * FROM your_table WHERE NOT (email RLIKE '^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$');
创建自定义函数（UDF）：
如果需要进行复杂的格式检查或计算，可以使用Java或Python编写自定义函数（UDF），然后在Hive SQL查询中调用这些函数。
定期执行数据质量检查：
为了确保数据的持续质量，可以定期（如每天、每周或每月）执行数据质量检查任务。这可以通过设置定时任务（如使用Cron Job）或使用调度工具（如Apache Airflow）来实现。
数据清洗和处理：
对于检测到的脏数据和异常数据，可以采取以下措施进行处理：
- 删除：直接删除不符合要求的数据行。
- 修正：根据业务需求修正错误的数据。
- 填充缺失值：对于缺失的数据，可以根据业务规则填充合适的默认值或通过插值方法进行填充。
- 记录日志：记录检测到的脏数据和异常数据，以便后续分析和处理。

作者 east

数据仓库 6月 13,2024

数据仓库数据质量检测的免费开源框架对比及应用场景

数据仓库的数据质量检测是确保数据分析可靠性的关键环节。幸运的是，有许多开源框架和工具可以帮助我们实现这一目标。以下是几个知名的免费开源数据质量检测框架及其在GitHub上的链接，以及它们的优缺点和应用场景：

Great Expectations
- GitHub: https://github.com/great-expectations/great_expectations
- 优点:
  - 提供丰富的期望（Expectations）来验证数据，包括列值的分布、缺失值检查、唯一性验证等。
  - 支持多种数据源，如SQL数据库、Spark、Pandas DataFrame等。
  - 可视化报告和文档化，便于团队沟通和审计。
  - 强大的集成能力，易于与CI/CD流程整合。
- 缺点:
  - 初学者可能需要时间熟悉其配置和期望的设定。
  - 在大规模数据集上的性能可能需要优化。
- 应用场景:
  - 数据湖和数据仓库的数据验证。
  - ETL流程中的数据质量保证。
  - 数据科学家和数据工程师的日常数据验证。
Deequ
- GitHub: https://github.com/awslabs/deequ
- 优点:
  - 由AWS开发，专为Apache Spark设计，适用于大数据量的处理。
  - 提供一系列预定义的质量规则（如完整性、唯一性、合规性等）。
  - 可以生成详细的分析报告，指出数据问题所在。
- 缺点:
  - 主要面向Spark用户，对其他数据处理引擎支持有限。
  - 配置和使用相对于某些工具来说更为复杂。
- 应用场景:
  - 大规模数据湖和数据仓库的质量监控。
  - Spark作业中的数据质量自动化测试。
DataQL
- GitHub: https://github.com/dataql/dataql
- 优点:
  - 基于查询语言（类似SQL）的数据质量检查框架，易于上手。
  - 支持多种数据源，灵活性高。
  - 通过定义数据质量规则来驱动检查，便于定制化。
- 缺点:
  - 相比其他工具，社区较小，资源和文档可能不够丰富。
  - 功能相对较为基础，对于高级数据质量检测需求可能不够全面。
- 应用场景:
  - 简单数据源的数据质量快速验证。
  - 小型项目或初创团队的数据质量初步建立。
OpenRefine
- GitHub: https://github.com/OpenRefine/OpenRefine
- 优点:
  - 强大的数据清洗和转换工具，也包含数据质量检测功能。
  - 图形界面友好，适合非技术人员使用。
  - 支持数据的批量修改和标准化。
- 缺点:
  - 不是专门针对数据质量检测设计，更多是作为数据预处理工具。
  - 运行环境为本地，不适合大规模数据处理。
- 应用场景:
  - 数据探索和准备阶段，手动或半自动进行数据质量检查和修正。
  - 数据分析师和数据记者进行数据清理和初步分析。

选择合适的工具时，应考虑项目规模、数据源类型、团队技术栈以及是否有特定的集成需求。每种工具都有其独特的优势和局限性，因此，综合评估并选择最符合自己项目需求的工具是关键。

作者 east

数据仓库, 数据库 3月 25,2022

数据工程最糟糕的部分是什么

在数据工程团队中，列表很长，取决于您的个人角色。但我的一般选择是“最终数据科学家和数据分析师糟糕的 SQL 语句”。

可能不是一个明显的答案，所以让我解释一下。

如果您正在使用数据仓库，让我们从数据工程团队的三个主要工作领域的角度来看这个问题：

构建 ETL 管道 → 将数据导入您的仓库

构建转换→加入/转换不同的数据集

公开数据以供下游使用 → 报告、分析、ML/AI

数据工程师还需要对元数据进行分类和组织，并定义从仓库写入和读取数据的流程。在某种程度上，他们是数据仓库的图书馆员。

然后目标是尽可能抽象和自动化。通过自动化，数据工程师可以将他们稀缺的时间用于构建与维护/修复。

您还通过向您提供的数据添加 SLA 来向业务做出承诺。 “报告将在太平洋标准时间早上 6 点之前完成”或“我们的分析环境仅比我们的生产环境晚 15 分钟”。

瞧，您已经完成了以上所有工作，将其投入生产，稍作调整，一切正常。你可以继续做别的事情。嗯，不。

变革的驱动力

事情不是一成不变的。如果您正在为一家不断发展的企业工作，那么您将不得不应对三个挑战：

数据量在 5 年内增长约 10 倍，同时出现了越来越多的新型数据源

模型的数量正在增长。随着您将更多数据引入您的仓库，您可以以无限新的方式组合这些数据。你会听到术语“DAG”（有向无环图）。

用户和工具的数量正在增长。随着业务的增长，需要/想要访问数据的人数也在增加。他们将希望使用他们选择的工具访问这些数据。

数据工程的挑战

现在你是负责这个堆栈的数据工程师。您的公司将雇用更多的数据工程师来保持运转。例如，Netflix 每个数据源都有一名数据工程师，他们的全部工作就是保持该数据源的盘子旋转。

但并非每家公司都有 Netflix 的预算。人数有上限。但是，贵公司招聘的数据科学家和分析师的数量似乎没有限制。更多的关注数据是“数据驱动的”。

因此，“数据构建者”（数据工程师）和“数据消费者”（数据分析师、科学家、机器学习应用程序等）之间的比例猛增。

我看到（数据构建者）与（数据消费者）的比率介于 1:20 到 1:40 之间。一名数据工程师必须支持 20-40 个下游用户。

这就是问题开始的地方。回到最初的三个工作领域，将会发生以下情况：

ETL 管道运行很长时间并产生错误和问题。不过，您可能只能在运行后发现，现在您必须弄清楚是什么损坏了。这是一个巨大的干扰。

现有的模型可能无法提供企业想要的答案。分析师想要快速行动，因此他们绕过您并开始添加新模型，甚至直接在您的仓库中查询原始数据。如果基础表发生变化，这会导致模型膨胀和损坏。

您的最终用户可能正在使用为他们生成 SQL 的工具。或者他们编写自己的 SQL 语句。这两种方法都可能导致糟糕的 SQL 语法使整个仓库紧张，每个人的查询速度都很慢。

然后用户向数据工程师提交支持票（“我的查询很慢”，或者“我的查询没有完成或完成”）。你会被支持请求淹没。

我们当然是在戏剧化，但从方向上讲，这是工作中最糟糕的三个部分。让我们称之为“保持盘子旋转”。

数据工程中最糟糕的部分

我书中最糟糕的一点是最后一点——处理糟糕的 SQL。

那是因为管道和模型是您可以控制的。约定、工具、监控、警报、访问权限等——有一种方法可以在事物周围设置护栏。

但是控制最终用户和他们的 SQL 是不可能的。例如，我见过没有 WHERE 子句的“SELECT *”查询，它连接两个表，每个表有 20 亿行。输出量如此之大，以至于它会填满并取下仓库。 “谁写了那个查询？？”。

不太引人注目的结果包括编写查询，例如10 分钟的执行时间，一个小的更改可能会导致 1 分钟的执行时间。这听起来可能没什么大不了的（“我会同时去喝杯咖啡”），但这是生产力的巨大损失。对于数据科学，快速迭代和测试模型就是一切。

是的，您可以设置规则来终止查询，但所做的只是增加分析师文件的支持票数，因为查询没有完成。

对于数据工程师来说，这些查询是谁编写的也不是很明显。分析师使用的工具掩盖了他们背后的用户。 Tableau、Looker 或 Mode Analytics 等仪表板工具在您的仓库中显示为一个用户。

但在他们身后，他们可能有 100-200 人在编写查询。因此，您使用“Looker”作为用户，但您不知道是“Jack”、“Anne”还是“Joe”编写了查询。因此，要找出发生了什么以及谁编写了哪个查询，需要进行大量的挖掘工作。

概括

所以你去，上面是长版本。答案的简短版本是“最终用户的 SQL 语句不佳”。

这是一个问题，原因有以下三个：

您无法控制分析师编写的 SQL 语法。您可能只有在查询运行并造成损坏后才能发现。

分析师用来编写查询的工具掩盖了他们背后的用户。在拥有数百名用户的情况下，找到编写查询的用户就像大海捞针一样。

您不能只是关闭分析师或终止他们的查询——这将导致支持票证的增加以及数据工程和数据消费者之间的摩擦。

随着数据生产者与数据消费者的比例越来越大，问题只会越来越大。您必须支持的最终用户越多，您必须处理的投诉和罚单就越多，这是一个巨大的挫败感和时间浪费。

当然，这个问题的答案是让分析师能够编写更好的 SQL，并帮助数据工程师在这方面与分析师协作。

作者 east

Hive, 数据仓库 2月 19,2022

Hive构建数据仓库常用的函数

concat（）函数。

concat（）函数用于连接字符串，在连接字符串时，只要其中一个字符串是NULL，结果就返回NULL。

concat_ws（）函数。

concat_ws（）函数同样用于连接字符串，在连接字符串时，只要有一个字符串不是NULL，结果就不会返回NULL。concat_ws（）函数需要指定分隔符。

str_to_map（）函数。

● 语法描述。str_to_map(VARCHAR text,VARCHAR listDelimiter,VARCHARkeyValueDelimiter)。

● 功能描述。使用listDelimiter将text分隔成key-value对，然后使用keyValueDelimiter分隔每个keyvalue对，并组装成MAP返回。默认listDelimiter为“，”，keyValueDelimiter为“=”。

nvl（）函数

基本语法：nvl（表达式1，表达式2）。如果表达式1为空值，则nvl（）函数返回表达式2的值，否则返回表达式1的值。nvl（）函数的作用是把一个空值（null）转换成一个实际的值。其表达式的数据类型可以是数字型、字符型和日期型。需要注意的是，表达式1和表达式2的数据类型必须相同。

日期处理函数

1）date_format（）函数（根据格式整理日期）

hive> select date_format('2020-03-18',''yyyy-MM');
hive> 2020-03

2）date_add（）函数（加减日期）

hive> select date_add('2020-03-11',1);
hive> 2020-03-12

3）next_day（）函数

（1）获取当前日期的下一个星期一。

hive> select next_day('2020-03-13','MO');
hive> 2020-03-16

（2）获取当前周的星期一。

hive> select date_add(next_day('2020-03-13','MO'),-7);
hive> 2020-03-11

4）last_day（）函数（获取当月最后一天的日期）

作者 east

数据仓库 5月 2,2021

数据仓库分层及命名规则

数据仓库中的数据要想真正发挥最大的作用，必须对数据仓库进行分层，数据仓库分层的优点如下。

● 把复杂问题简单化。可以将一个复杂的任务分解成多个步骤来完成，每层只处理单一的步骤。

● 减少重复开发。规范数据分层，通过使用中间层数据，可以大大减少重复计算量，增加计算结果的复用性。

● 隔离原始数据。使真实数据与最终统计数据解耦。数据仓库具体如何分层取决于设计者对数据仓库的整体规划，不过大部分的思路是相似的。

本数据仓库分为五层，如下所述。

● ODS层：原始数据层，存放原始数据，直接加载原始日志、数据，数据保持原貌不做处理。

● DWD层：明细数据层，对ODS层数据进行清洗（去除空值、脏数据、超过极限范围的数据）、维度退化、脱敏等。

● DWS层：服务数据层，以DWD层的数据为基础，按天进行轻度汇总。

● DWT层：主题数据层，以DWS层的数据为基础，按主题进行汇总，获得每个主题的全量数据表。

● ADS层：数据应用层，面向实际的数据需求，为各种统计报表提供数据。数据仓库分层后要遵守一定的数据仓库命名规范，本项目中的规范如下。

1.表命名ODS层命名为ods_表名。

DWD层命名为dwd_dim/fact_表名。DWS层命名为dws_表名。

DWT层命名为dwt_购物车。ADS层命名为ads_表名。临时表命名为tmp_×××。用户行为表以.log为后缀。

2.脚本命名脚本命名格式为数据源to目标_db/log.sh。用户行为需求相关脚本以.log为后缀；业务数据需求相关脚本以.db为后缀。

作者 east

数据仓库 4月 28,2021

关系型数据库（关系模型）转变为数据仓库（维度模型）示例

关系模型示意如图1所示，严格遵循第三范式（3NF）。从图1中可以看出，模型较为松散、零碎，物理表数量多，但数据冗余程度低。由于数据分布于众多的表中，因此这些数据可以更为灵活地被应用，功能性较强。关系模型主要应用于OLTP中，为了保证数据的一致性及避免冗余，大部分业务系统的表都是遵循第三范式的。

维度模型示意如图2所示，其主要应用于OLAP中，通常以某一张事实表为中心进行表的组织，主要面向业务，其特征是可能存在数据的冗余，但用户能方便地得到数据。关系模型虽然数据冗余程度低，但在大规模数据中进行跨表分析、统计、查询时，会造成多表关联，这会大大降低执行效率。所以通常我们采用维度模型建模，把各种相关表整理成事实表和维度表两种。所有的维度表围绕事实表进行解释。

图1 关系模型示意

图2 维度模型示意

作者 east

数据仓库 1月 3,2021

数据采集与同步经验之谈

根据埋点位置，可分为客户端埋点、服务端埋点，实际各有利弊，比如服务端埋点对后台请求的用户无法捕获，而客户端埋点可能会由于用户的环境问题存在数据丢包，客户端可能无法获取全部的数据等，所以在无特殊情况下，建议采用服务端埋点方案。

埋点要把一切用户操作行为都看做事件，覆盖事件的核心要素，包括人、时间、事、地点、方式。

埋点的数据格式，要确保灵活、可扩展性，上报数据采用json格式，不要太深的嵌套。

作者 east

分类归档数据仓库