Flink SQL 连接 – 第 1 部分

Flink SQL 已成为低代码数据分析的事实标准。它成功地统一了批处理和流处理，同时保持了 SQL 标准。此外，它还为实时用例提供了一组丰富的高级功能。简而言之，Flink SQL 提供了两全其美的功能：它使您能够使用 SQL 处理流数据，但它还支持批处理。由于 Flink SQL 始终遵循 ANSI-SQL 2011 标准，因此所有功能都来自兼容的数据库应该管用。这包括内部联接和外部联接，以及 SQL 标准中描述的所有其他联接类型。

常规连接、间隔连接和查找连接

在这个由三部分组成的博客文章系列中，我们将向您展示 Flink SQL 中不同类型的联接以及如何使用它们以各种方式处理数据。这篇文章将重点介绍常规连接、间隔连接和查找连接。

常规连接

常规连接在 SQL 中用于组合两个或多个表中的数据。使用联接时，您可以指定每个表中要用于创建新表的列。您还可以使用联接来创建包含多个表中的数据的单个表。例如，如果您有一个包含客户信息的表和另一个包含订单信息的表，则可以使用联接创建一个同时包含客户信息和订单信息的表。

sql复制代码

CREATE TABLE NOC (
    agent_id STRING,
    codename STRING
);

CREATE TABLE RealNames (
    agent_id STRING,
    name STRING
);

SELECT
    name,
    codename
FROM NOC
INNER JOIN RealNames ON NOC.agent_id = RealNames.agent_id;

间隔连接

间隔连接用于比较相隔一定时间的两组数据。每组数据被分为多个区间，每个区间由开始时间和结束时间定义。间隔连接在处理具有时间上下文的事件时非常有用。例如，您可以将销售数据按小时间隔与客户数据按天间隔连接起来。

sql复制代码

CREATE TABLE orders (
    id INT,
    order_time TIMESTAMP
);

CREATE TABLE shipments (
    id INT,
    order_id INT,
    shipment_time TIMESTAMP
);

SELECT
    o.id AS order_id,
    o.order_time,
    s.shipment_time,
    TIMESTAMPDIFF(DAY, o.order_time, s.shipment_time) AS day_diff
FROM orders o
JOIN shipments s ON o.id = s.order_id
WHERE o.order_time BETWEEN s.shipment_time - INTERVAL '3' DAY AND s.shipment_time;

查找连接

查找连接用于在公共键上连接两个数据集，其中一个数据集是静态的，不会随时间变化。通过查找连接，您可以在流数据中丰富外部参考数据表中的信息。这对于实时数据分析非常有用。

sql复制代码

CREATE TABLE subscriptions (
    id STRING,
    user_id INT,
    type STRING,
    start_date TIMESTAMP,
    end_date TIMESTAMP,
    payment_expiration TIMESTAMP,
    proc_time AS PROCTIME()
);

CREATE TABLE users (
    user_id INT PRIMARY KEY,
    username VARCHAR(255) NOT NULL,
    age INT NOT NULL
);

SELECT
    s.id AS subscription_id,
    s.type AS subscription_type,
    u.age,
    CASE WHEN u.age < 18 THEN 1 ELSE 0 END AS is_minor
FROM subscriptions s
JOIN users FOR SYSTEM_TIME AS OF s.proc_time AS u ON s.user_id = u.user_id;

关注公众号“大模型全栈程序员”回复“大数据面试”获取800页左右大数据面试宝典，回复“大数据”获取多本大数据电子书