2024年6月 – 第2页

mysql, Spark 6月 14,2024

PySpark清空mysql的表数据代码(亲测可用)

用PySpark来数据分析和数据仓库操作时，有时需要先清空mysql数据再写入数据。但是pyspark不能直接执行DDL（数据定义语言）操作如TRUNCATE TABLE,这时一种方法是用第三方库，利用 TRUNCATE TABLE 等方法来操作，另外还有一种变通的方法：

直接使用插入空数据的方式来“清空”表并不是传统意义上的清空（truncate或delete操作），但如果你想通过Pyspark实现类似效果，可以考虑先创建一个空的DataFrame，然后覆盖写入到目标表中。这种方式实际上是执行了一个覆盖写入操作，会删除原表数据并用新的空数据集替换。请注意，这种方法会依赖于你的MySQL配置是否允许覆盖写入操作，且在大量数据情况下效率较低。

from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, StringType

def clear_table_with_pyspark(table_name):
    try:
        # 初始化SparkSession
        spark = SparkSession.builder.getOrCreate()

        # 定义空DataFrame的架构，这里只是一个示例，根据你的表实际结构来定义
        schema = StructType([
            StructField("column1", StringType(), True),  # 更改为你表中的实际列名和类型
            StructField("column2", StringType(), True),  # 可以根据需要添加更多列
            # ...
        ])

        # 创建一个空的DataFrame
        empty_df = spark.createDataFrame(spark.sparkContext.emptyRDD(), schema)

        # JDBC连接字符串
        url = "jdbc:mysql://{host}:{port}/{database}".format(
            host=DB_HOST,
            port=str(DB_PORT),
            database=DB_NAME
        )

        # 使用覆盖写入模式（overwrite）将空DataFrame写入到表中
        empty_df.write \
            .format("jdbc") \
            .option("url", url) \
            .option("dbtable", table_name) \
            .option("user", DB_USER) \
            .option("password", DB_PASSWORD) \
            .option("driver", "com.mysql.jdbc.Driver") \
            .mode("overwrite") \
            .save()

        print(f"Table {table_name} has been emptied using Spark write operation.")
    except Exception as e:
        print(f"Error occurred while clearing table {table_name}: {e}")
        if hasattr(e, 'java_exception'):
            java_exception = e.java_exception
            print("Java exception details:", java_exception)
            print("Java exception message:", java_exception.getMessage())
            print("Java exception stack trace:", java_exception.getStackTrace())

# 调用函数
clear_table_with_pyspark("your_table_name")

请注意，这种方法的一个重要限制是它要求你明确地定义目标表的结构，这可能在表结构复杂或频繁变动时变得不够灵活。此外，对于非常大的表，尽管它能达到“清空”的目的，但效率和资源消耗可能不如直接使用TRUNCATE或DELETE语句。

作者 east

数据仓库 6月 13,2024

数据仓库数据质量检测的免费开源框架对比及应用场景

数据仓库的数据质量检测是确保数据分析可靠性的关键环节。幸运的是，有许多开源框架和工具可以帮助我们实现这一目标。以下是几个知名的免费开源数据质量检测框架及其在GitHub上的链接，以及它们的优缺点和应用场景：

Great Expectations
- GitHub: https://github.com/great-expectations/great_expectations
- 优点:
  - 提供丰富的期望（Expectations）来验证数据，包括列值的分布、缺失值检查、唯一性验证等。
  - 支持多种数据源，如SQL数据库、Spark、Pandas DataFrame等。
  - 可视化报告和文档化，便于团队沟通和审计。
  - 强大的集成能力，易于与CI/CD流程整合。
- 缺点:
  - 初学者可能需要时间熟悉其配置和期望的设定。
  - 在大规模数据集上的性能可能需要优化。
- 应用场景:
  - 数据湖和数据仓库的数据验证。
  - ETL流程中的数据质量保证。
  - 数据科学家和数据工程师的日常数据验证。
Deequ
- GitHub: https://github.com/awslabs/deequ
- 优点:
  - 由AWS开发，专为Apache Spark设计，适用于大数据量的处理。
  - 提供一系列预定义的质量规则（如完整性、唯一性、合规性等）。
  - 可以生成详细的分析报告，指出数据问题所在。
- 缺点:
  - 主要面向Spark用户，对其他数据处理引擎支持有限。
  - 配置和使用相对于某些工具来说更为复杂。
- 应用场景:
  - 大规模数据湖和数据仓库的质量监控。
  - Spark作业中的数据质量自动化测试。
DataQL
- GitHub: https://github.com/dataql/dataql
- 优点:
  - 基于查询语言（类似SQL）的数据质量检查框架，易于上手。
  - 支持多种数据源，灵活性高。
  - 通过定义数据质量规则来驱动检查，便于定制化。
- 缺点:
  - 相比其他工具，社区较小，资源和文档可能不够丰富。
  - 功能相对较为基础，对于高级数据质量检测需求可能不够全面。
- 应用场景:
  - 简单数据源的数据质量快速验证。
  - 小型项目或初创团队的数据质量初步建立。
OpenRefine
- GitHub: https://github.com/OpenRefine/OpenRefine
- 优点:
  - 强大的数据清洗和转换工具，也包含数据质量检测功能。
  - 图形界面友好，适合非技术人员使用。
  - 支持数据的批量修改和标准化。
- 缺点:
  - 不是专门针对数据质量检测设计，更多是作为数据预处理工具。
  - 运行环境为本地，不适合大规模数据处理。
- 应用场景:
  - 数据探索和准备阶段，手动或半自动进行数据质量检查和修正。
  - 数据分析师和数据记者进行数据清理和初步分析。

选择合适的工具时，应考虑项目规模、数据源类型、团队技术栈以及是否有特定的集成需求。每种工具都有其独特的优势和局限性，因此，综合评估并选择最符合自己项目需求的工具是关键。

作者 east

Flink 6月 11,2024

Flink ProcessFunction不同流异同及应用场景

`ProcessFunction`系列对比概览

函数类别	关键特性	应用场景示例
`ProcessFunction`	基础类，处理单个事件，支持事件时间、水位线、状态管理、定时器。	单独处理每个事件，执行复杂逻辑，如基于事件内容动态响应。
`KeyedProcessFunction`	基于键的处理，每个键有自己的状态。支持事件时间、水位线、状态管理、定时器。	按用户分组统计点击量，用户会话管理，状态跟踪。
`CoProcessFunction`	处理两个数据流，独立处理来自两流的事件，支持事件时间、水位线、状态管理、定时器。	实时融合交易流与价格流，实时计算订单总价；日志与用户信息流的匹配处理。
`ProcessJoinFunction`	专为流连接设计，处理两个数据流，简化版的`CoProcessFunction`，不支持定时器。	简单的流连接操作，如订单ID与用户信息的关联。
`BroadcastProcessFunction`	处理普通流与广播流，广播流的每个元素发给所有普通流元素，适用于全局状态更新。	实时规则更新，广播新的规则至所有交易验证逻辑。
`KeyedBroadcastProcessFunction`	类似`BroadcastProcessFunction`，但作用于键控流，每个键控流元素接收广播流所有元素。	每个用户个性化推荐算法更新，全局规则变化按用户分发。
`ProcessWindowFunction`	在窗口聚合后处理窗口内所有元素，提供窗口上下文信息，如窗口开始/结束时间，适合窗口内复杂计算。	计算每小时温度波动，统计窗口内中位数、分位数等。
`ProcessAllWindowFunction`	处理全窗口数据，非键控，适用于全局操作，如计算整个数据流的汇总统计信息。	计算整个数据流的总和或平均值，无需考虑分组。

异同点总结

状态管理与事件时间：所有函数均支持事件时间和水位线处理，状态管理（除了ProcessJoinFunction），但Keyed系列额外支持键控状态。
流处理：CoProcessFunction、ProcessJoinFunction处理多个流，而BroadcastProcessFunction和KeyedBroadcastProcessFunction支持广播状态传播。
窗口处理：ProcessWindowFunction和ProcessAllWindowFunction专用于窗口处理，前者基于键控窗口，后者处理全窗口数据。
灵活性：ProcessFunction和KeyedProcessFunction最为灵活，适用于广泛的复杂逻辑处理；ProcessWindowFunction在窗口上下文中提供了额外的处理能力。

1. ProcessFunction

概述：ProcessFunction是最基本的形式，它不依赖于任何键或窗口，为每个输入事件提供完全的控制权。它允许访问事件的时间戳和水位线信息，并提供了注册和处理定时器的能力。

应用场景：适合需要对每个事件进行独立、复杂处理的场景，如基于事件的复杂逻辑判断、状态更新或基于时间的操作。

示例：处理单个事件，根据事件的内容动态注册定时器，进行后续处理。

2. KeyedProcessFunction

概述：KeyedProcessFunction是对ProcessFunction的扩展，用于处理已经按照某个键（key）分组的数据流。它除了具备ProcessFunction的所有功能外，还可以访问键控状态，即每个键都有独立的状态。

应用场景：适用于需要基于键的聚合或状态管理的场景，如统计每个用户的点击次数、维持每个商品的库存状态等。

示例：统计每个用户的登录次数，同时在特定事件后发送通知。

3. CoProcessFunction

概述：用于处理两个数据流的连接操作，每个流可以有不同的类型。它允许独立地处理来自两个流的事件，并提供了注册定时器的功能。

应用场景：当需要根据两个不同的数据流进行联合处理时使用，例如在实时交易系统中，将订单流和价格流合并，实时计算订单的最新总价。

示例：实时融合两个数据源，比如订单流和用户流，根据订单ID匹配用户信息，进行个性化推荐。

4. ProcessJoinFunction

概述：专用于处理两个流的连接操作，但与CoProcessFunction相比，它更专注于流的连接逻辑，而不提供事件时间处理或定时器功能。

应用场景：适用于简单的流连接，当只需要对两个流进行匹配和简单的处理时使用。

示例：基于键匹配两个流的记录，如用户行为日志与用户详情表的关联查询。

5. BroadcastProcessFunction

概述：用于处理一个普通数据流和一个广播数据流。广播流的每个元素都会被发送给所有普通流的元素，适合实现广播状态模式。

应用场景：当需要将某些全局配置或规则广播给所有流的处理逻辑时，比如实时更新的黑名单列表应用于每一条交易验证。

示例：实时更新规则引擎，当规则发生变化时，广播新规则至所有交易流，进行动态规则匹配。

6. KeyedBroadcastProcessFunction

概述：类似于BroadcastProcessFunction，但作用于键控流上，每个键控流的元素会接收到广播流的所有元素，同时保持了键控状态。

应用场景：在需要根据键进行状态管理和同时应用全局更新的场景，如每个用户个性化推荐算法的更新。

示例：根据用户偏好动态调整推荐算法，当推荐算法模型更新时，广播更新至每个用户的推荐逻辑中。

7. ProcessWindowFunction

概述：在窗口聚合操作结束后，对窗口内所有元素进行进一步处理。提供了窗口上下文信息，如窗口的开始和结束时间，可以访问窗口内所有元素并执行复杂计算。

应用场景：当窗口聚合后还需要进行复杂的计算或转换时，如计算窗口内的中位数、分位数等。

示例：计算每个小时内的温度变化率，不仅统计平均温度，还计算温度的最大波动。

8. ProcessAllWindowFunction

概述：与ProcessWindowFunction类似，但处理的是非键控的全窗口，即所有输入数据被视为一个整体处理，常用于全局窗口。

应用场景：适用于需要在整个数据集上执行全局操作，而不考虑键的场景，如计算整个数据流的总体统计信息。

示例：计算整个数据流的总和或平均值，不考虑数据的分组。

作者 east

Flink 6月 11,2024

Flink 时间窗口在 IoT 项目中的应用实战

一、引言

在物联网（IoT）项目中，实时数据处理和分析至关重要。Apache Flink 作为一款高性能的流处理框架，提供了多种时间窗口机制，以支持复杂的时序数据处理需求。本文将通过实际案例，详细介绍 Flink 中的滚动窗口（Tumbling Window）、滑动窗口（Sliding Window）和会话窗口（Session Window）在 IoT 项目中的应用。

二、时间窗口概述

在 Flink 中，时间窗口是一种处理时序数据的重要机制。它允许我们将数据按照时间范围进行分组，并对每个分组内的数据进行聚合。Flink 提供了三种主要的时间窗口：滚动窗口、滑动窗口和会话窗口。

滚动窗口（Tumbling Window）：滚动窗口是一种固定大小、不重叠的时间窗口。它将数据流划分为一系列相等的时间段，并对每个时间段内的数据进行聚合。滚动窗口常用于计算每个时间段内的统计信息，如平均值、总和等。
滑动窗口（Sliding Window）：滑动窗口是一种可以重叠的时间窗口。它允许我们指定一个滑动间隔，从而在每个滑动间隔内对数据进行聚合。滑动窗口常用于检测数据流中的趋势和周期性变化。
会话窗口（Session Window）：会话窗口是一种基于数据活跃度的动态时间窗口。它将数据流中相邻的、活跃度较高的数据分组到一起，形成一个个会话。会话窗口常用于分析用户行为、设备连接状态等场景。

三、时间窗口在 IoT 项目中的应用

在 IoT 项目中，时间窗口的应用主要体现在以下几个方面：

实时监控和告警：通过滚动窗口或滑动窗口，可以实时计算设备的温度、湿度等指标的统计信息，并在异常情况下触发告警。
数据分析和预测：利用滑动窗口或会话窗口，可以对设备的历史数据进行分析，发现潜在的趋势和周期性变化，从而进行更精确的预测和优化。
用户行为分析：在智能家居等场景中，通过会话窗口分析用户的操作行为，可以更好地了解用户需求，提供个性化的服务。

四、实战案例分析

接下来，我们将通过三个实际的 IoT 项目案例，详细介绍如何在 Flink 中应用这三种时间窗口。

案例一：实时监控和告警

假设我们有一个 IoT 项目，需要实时监控工厂设备的温度数据，并在温度过高时触发告警。在这个项目中，我们可以使用滚动窗口来计算每个时间段内的平均温度，并设置阈值进行告警。

DataStream<TemperatureData> temperatureStream = ...; // 从设备读取温度数据
DataStream<Tuple2<Long, Double>> averagedTemperatures = temperatureStream
    .keyBy(data -> data.getDeviceId()) // 按设备ID分组
    .timeWindow(Time.minutes(1)) // 设置滚动窗口大小为1分钟
    .reduce((t1, t2) -> new TemperatureData(t1.getDeviceId(), (t1.getTemperature() + t2.getTemperature()) / 2)); // 计算平均温度

averagedTemperatures.addSink(new AlertSink()); // 添加告警接收器

案例二：数据分析和预测

假设我们有一个智能电网项目，需要分析电力消耗数据，预测未来的电力需求。在这个项目中，我们可以使用滑动窗口来计算每小时的电力消耗量，并基于历史数据进行预测。

DataStream<ElectricityData> electricityStream = ...; // 从电网读取电力消耗数据
DataStream<Tuple2<Long, Double>> hourlyConsumptions = electricityStream
    .keyBy(data -> data.getLocation()) // 按地点分组
    .timeWindow(Time.hours(1), Time.minutes(30)) // 设置滑动窗口大小为1小时，滑动间隔为30分钟
    .sum(0); // 计算每小时的总电力消耗量

hourlyConsumptions.addSink(new PredictionSink()); // 添加预测接收器

案例三：用户行为分析

假设我们有一个智能家居项目，需要分析用户的操作行为，以便提供个性化的服务。在这个项目中，我们可以使用会话窗口来分析用户在一定时间内的操作记录，识别用户的活跃度和偏好。

DataStream<UserAction> userActionStream = ...; // 从智能家居设备读取用户操作数据
DataStream<Tuple2<String, Integer>> userSessions = userActionStream
    .keyBy(action -> action.getUserId()) // 按用户ID分组
    .window(TumblingEventTimeWindows.of(Time.minutes(5))) // 设置会话窗口大小为5分钟
    .reduce(new CountReducer()); // 计算每个用户的操作次数

userSessions.addSink(new PersonalizedServiceSink()); // 添加个性化服务接收器

在Flink IoT项目中，时间窗口是处理和分析流数据的强大工具。滚动窗口适用于需要固定时间间隔统计的场景，滑动窗口适用于需要连续更新统计的场景，而会话窗口适用于需要检测活动会话的场景。每种窗口类型都有其特定的应用场景和优势，选择合适的窗口类型对于实现有效的流数据处理至关重要。

作者 east

Flink, 储能 6月 11,2024

RichSinkFunction 在 Flink IoT 项目中的应用实战

一、引言

随着物联网（IoT）技术的快速发展，实时数据处理和分析的需求日益增长。Apache Flink 作为一款高性能的流处理框架，广泛应用于 IoT 项目中。在 Flink 中，RichSinkFunction 是一种特殊的函数，它允许用户在数据流输出到外部系统之前，对数据进行进一步的转换和处理。本文将通过一个实际的 Flink IoT 项目案例，详细介绍 RichSinkFunction 的应用。

二、RichSinkFunction 概述

在 Flink 中，SinkFunction 是用于将数据流输出到外部系统的函数。与普通 SinkFunction 不同，RichSinkFunction 提供了更多的功能和灵活性。它允许用户访问 Flink 运行时的上下文信息，如状态管理、计时器和广播变量等。此外，RichSinkFunction 还可以处理异步 I/O 操作，提高数据输出的效率。

三、RichSinkFunction 的应用

在 IoT 项目中，RichSinkFunction 的应用主要体现在以下几个方面：

数据清洗和转换：在将数据输出到外部系统之前，可能需要对数据进行清洗、过滤和转换等操作。RichSinkFunction 可以方便地实现这些功能，提高数据质量。
异步输出：为了提高数据处理的效率，可以使用 RichSinkFunction 的异步输出功能。通过异步输出，可以将数据流的输出操作与 Flink 主线程分离，从而减少数据处理的延迟。
状态管理和计时器：在处理 IoT 数据时，可能需要根据历史数据或时间窗口内的数据进行决策。RichSinkFunction 可以利用 Flink 的状态管理和计时器功能，实现这些复杂的数据处理逻辑。

在物联网项目中，常见的数据输出需求包括：

实时数据存储：将实时处理的传感器数据写入数据库，如MySQL、Cassandra或MongoDB，供后续查询分析。
消息传递：将数据推送到消息队列如Kafka、RabbitMQ，用于数据集成或后续处理。
持久化存储：将数据写入HDFS、S3等分布式文件系统，实现数据备份或离线分析。
报警通知：根据实时数据触发警报，发送邮件、短信或推送通知。

实例应用：将Flink处理的IoT数据写入MySQL数据库

假设我们有一个物联网项目，需要实时收集来自智能设备的温度和湿度数据，并将处理后的数据实时插入到MySQL数据库中进行长期存储和分析。下面是使用RichSinkFunction实现这一需求的示例代码：

准备工作

依赖准备：确保项目中添加了Flink和MySQL驱动的依赖。

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-java</artifactId>
    <version>${flink.version}</version>
</dependency>
<dependency>
    <groupId>mysql</groupId>
    <artifactId>mysql-connector-java</artifactId>
    <version>${mysql.connector.version}</version>
</dependency>

数据库表结构：假设我们已经创建了一个名为iot_data的表，用于存储温度和湿度数据。

Sql1CREATE TABLE iot_data (
2    device_id INT PRIMARY KEY,
3    temperature DOUBLE,
4    humidity DOUBLE,
5    timestamp TIMESTAMP
6);

RichSinkFunction实现

import org.apache.flink.api.common.functions.RuntimeContext;
import org.apache.flink.streaming.api.functions.sink.RichSinkFunction;

public class MySQLSink extends RichSinkFunction<TemperatureHumidityRecord> {

    private transient Connection connection;
    private final String url;
    private final String user;
    private final String password;

    public MySQLSink(String url, String user, String password) {
        this.url = url;
        this.user = user;
        this.password = password;
    }

    @Override
    public void open(Configuration parameters) throws Exception {
        super.open(parameters);
        // 初始化数据库连接
        Class.forName("com.mysql.jdbc.Driver");
        connection = DriverManager.getConnection(url, user, password);
    }

    @Override
    public void invoke(TemperatureHumidityRecord record, Context context) throws Exception {
        String sql = "INSERT INTO iot_data(device_id, temperature, humidity, timestamp) VALUES(?,?,?,?)";
        try (PreparedStatement statement = connection.prepareStatement(sql)) {
            statement.setInt(1, record.getDeviceId());
            statement.setDouble(2, record.getTemperature());
            statement.setDouble(3, record.getHumidity());
            statement.setTimestamp(4, new Timestamp(record.getTimestamp().getTime()));
            statement.executeUpdate();
        }
    }

    @Override
    public void close() throws Exception {
        if (connection != null) {
            connection.close();
        }
        super.close();
    }
}

应用集成

在Flink流处理作业中集成上述自定义sink：

public class IotDataStreamJob {
    public static void main(String[] args) throws Exception {
        // 设置Flink环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        // 假设source为模拟的IoT数据流
        DataStreamSource<TemperatureHumidityRecord> source = env.addSource(new SimulatedIoTDataSource());

        // 定义转换逻辑，如过滤、聚合等

        // 将处理后的数据写入MySQL
        source.addSink(new MySQLSink("jdbc:mysql://localhost:3306/mydb", "username", "password"));

        // 启动任务
        env.execute("IoT Data to MySQL");
    }
}

Java1public class IotDataStreamJob {
2    public static void main(String[] args) throws Exception {
3        // 设置Flink环境
4        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
5
6        // 假设source为模拟的IoT数据流
7        DataStreamSource<TemperatureHumidityRecord> source = env.addSource(new SimulatedIoTDataSource());
8
9        // 定义转换逻辑，如过滤、聚合等
10
11        // 将处理后的数据写入MySQL
12        source.addSink(new MySQLSink("jdbc:mysql://localhost:3306/mydb", "username", "password"));
13
14        // 启动任务
15        env.execute("IoT Data to MySQL");
16    }
17}

作者 east

储能 6月 11,2024

通俗易懂讲储能电站运行指标

大家好！今天，我们就来聊聊储能电站的那些事儿——特别是它的运行指标。储能电站就像是我们日常生活中的“能量仓库”，能够在用电低谷时储存电能，高峰时释放出来，帮助平衡电网负荷。那么，如何衡量这个“能量仓库”的运行状况呢？这就需要我们关注一系列的运行指标。

一、电量指标

电量指标是衡量储能电站“吞吐量”的重要指标。简单来说，就是看这个电站能在一定时间里储存多少电，又能在需要的时候放出多少电。

1. 上网电量与下网电量

上网电量：指储能电站向电网输送的电能量。想象一下，你在家里给电动车充电，充满后把电动车连上电网，这时候你就是在向电网“上网”送电。
下网电量：则是储能电站从电网接受的电能量。就像你晚上回家，打开灯、开空调，这时候你家的电器就从电网“下网”用电。

2. 站用电量

除了储能，电站自己运行也需要消耗一定的电量，比如监控系统的电脑、照明等。这些消耗的电量就叫做站用电量。

案例分析

假设某储能电站在一天内上网电量为1000千瓦时（kWh），下网电量为800kWh，站用电量为50kWh。这意味着该电站在这一天里，不仅自给自足，还向电网输送了200kWh的电能。

二、能效指标

能效指标反映了储能电站的“工作效率”。就像我们评价一台电脑的性能一样，不仅要考虑它能处理多少数据，还要看它消耗了多少电。

1. 综合效率

综合效率是指储能电站在一定时间内，上网电量与下网电量的比值。这个比值越高，说明电站的能效越好。

2. 储能损耗率

储能损耗率反映了电能在储存过程中的损失。毕竟，任何电池都不是完美的，总会有一部分电能在储存过程中以热能等形式散失掉。

案例分析

还是上面的那个储能电站，如果它的综合效率为85%，那就意味着在这800kWh的下网电量中，有700kWh被有效利用，而剩下的100kWh则以各种形式损耗掉了。同时，如果储能损耗率为5%，则意味着在下网电量中有40kWh的能量在储能过程中损耗。

三、可靠性指标

可靠性指标反映了储能电站的稳定性和持久性。就像我们买家电时会关心它的使用寿命和故障率一样，储能电站的可靠性也是非常重要的。

1. 可用系数

可用系数是指储能电站在一定时间内，实际可用的时间与总时间的比值。这个比值越高，说明电站越可靠。

2. 非计划停运系数

非计划停运系数则是指因故障或其他非计划原因导致的停运时间与总时间的比值。我们希望这个比值越低越好，因为这意味着电站更少地出现意外情况。

案例分析

假设某储能电站一年内的可用系数为98%，非计划停运系数为1%。这就意味着在这一年里，该电站有98%的时间都在正常运行，只有1%的时间因为非计划原因而停运。这是一个相当可靠的表现。

四、运维费用指标

最后，我们来谈谈钱的问题。虽然储能电站对环境友好、有助于电网稳定，但它也需要一定的运维费用来维持运行。

1. 单位容量运行维护费

这是指每单位容量的储能电站每年需要的运行维护费用。这个费用包括了人工费、材料费、设备维修费等。

2. 度电运行维护费

这是指每度电（即每千瓦时）需要承担的运行维护费用。这个指标可以帮助我们了解储能电站在经济上的可行性。

案例分析

假设某储能电站的单位容量运行维护费为每年200元/kW，度电运行维护费为0.05元/kWh。对于一个额定功率为1000kW的电站来说，每年的运行维护费用就是20万元。同时，如果该电站一年上网电量为50万kWh，那么这些电量对应的运行维护费用就是2.5万元。

作者 east

Java, 海豚调度器 6月 7,2024

海豚调度器调用api接口启动工作流（java版本实现）

海豚调度器调用api接口启动工作流（亲试可用），详细介绍怎样用python代码启动工作流，不过后来有的生成环境是安装在docker，不通外网，python环境不支持requests。

方案1：离线安装requests

方案2：改成用java语言现实，所有依赖包打包成jar。

import java.net.URI;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.ResultSet;
import java.sql.Statement;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

import org.apache.http.HttpRequest;
import org.apache.http.NameValuePair;
import org.apache.http.client.HttpClient;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.message.BasicNameValuePair;
import org.apache.http.util.EntityUtils;
import org.apache.http.HttpEntity;
import org.apache.http.client.methods.HttpPost;
import org.apache.http.client.utils.URIBuilder;
import org.json.JSONArray;
import org.json.JSONObject;

public static void startWorkflow(String token, String projectName, String processDefinitionName, String processDefinitionId, String startNode) {
        // 构建请求URL和参数
        String url = DOLPHIN_SCHEDULER_URL + "/projects/" + projectName + "/executors/start-process-instance";

        List<NameValuePair> params = new ArrayList<>();
        params.add(new BasicNameValuePair("processDefinitionName", processDefinitionName));
        params.add(new BasicNameValuePair("processDefinitionId", processDefinitionId));
        params.add(new BasicNameValuePair("failureStrategy", "CONTINUE"));
        params.add(new BasicNameValuePair("warningType", "NONE"));
        params.add(new BasicNameValuePair("warningGroupId", "0"));
        params.add(new BasicNameValuePair("scheduleTime", ""));
        params.add(new BasicNameValuePair("runMode", "RUN_MODE_SERIAL"));
        params.add(new BasicNameValuePair("processInstancePriority", "MEDIUM"));
        params.add(new BasicNameValuePair("workerGroup", "default"));
        params.add(new BasicNameValuePair("timeout", "100"));
        params.add(new BasicNameValuePair("startNodeList", startNode));
        params.add(new BasicNameValuePair("taskDependType","TASK_ONLY" ));


        CloseableHttpClient client = null;
        try {
        URI uri = new URIBuilder(url)
                .addParameters(params)
                .build();

        client = HttpClients.createDefault();
        HttpPost httpPost = new HttpPost(uri);
        httpPost.setHeader("Content-Type", "application/json");
        httpPost.setHeader("token", token);


            CloseableHttpResponse response = client.execute(httpPost);
            HttpEntity entity = response.getEntity();
            String responseString = EntityUtils.toString(entity, "UTF-8");
            if (response.getStatusLine().getStatusCode() == 200) {
                System.out.println("Workflow started successfully: " + responseString);
            } else {
                System.out.println("Failed to start workflow: " + response.getStatusLine().getStatusCode());
            }
        } catch (Exception e) {
            System.out.println("Error starting workflow: " + e.getMessage());
        } finally {
            try {
                client.close();
            } catch (Exception e) {
                System.out.println("Error closing HttpClient: " + e.getMessage());
            }
        }
    }

作者 east

python, 海豚调度器 6月 7,2024

海豚调度器调用api接口来获取工作流信息（获取processDefinitionId）

在前面一文，海豚调度器调用api接口启动工作流（亲试可用），详细介绍processDefinitionId通过t_ds_process_definition来获取，并没有详细介绍如何用api调用。下面详细介绍如何用api获取。

获取工作流的信息：

#查询流程定义通过项目ID
def queryProcessDefinitionAllByProjectId(token,project_name, project_id):
    url = f"{dolphin_scheduler_base_url}/projects/{project_name}/process/queryProcessDefinitionAllByProjectId"
    params = {
        "projectId": project_id
    }
    headers = {
        "Content-Type": "application/json",
        "token": token
    }
    response = requests.get(url, headers=headers, params=params)

    if response.status_code == 200:
        return response.json()
    else:
        return None

解析工作流的信息，获取工作流名称和processDefinitionId的字典：

def extract_name_id_mapping(json_data):
    name_id_mapping = {}
    data_list = json_data.get('data', [])
    for item in data_list:
        name = item.get('name')
        id = item.get('id')
        if name and id:
            name_id_mapping[name] = id
    return name_id_mapping

调用如下：

 json_data = queryProcessDefinitionAllByProjectId(token,project_name, project_id)
        name_id_mapping = extract_name_id_mapping(json_data)
        print(name_id_mapping)

作者 east

python 6月 7,2024

CentOS Python 2.7 离线安装 Requests 库保姆级教程

在内网或无网络连接的环境中，Python 开发者经常需要离线安装第三方库。本文将详细介绍如何在 CentOS 系统上，使用 Python 2.7 版本离线安装 Requests 库。Requests 是一个简单易用的 HTTP 库，用于发送各种 HTTP 请求。

前提条件
CentOS 系统已安装 Python 2.7。
已下载 Requests 库及其依赖的离线安装包。
环境准备

下载必要的安装包
首先，需要从互联网上下载 Requests 库及其所有依赖的安装包。以下是需要下载的包列表：

setuptools
pip
certifi
chardet
idna
urllib3
requests
你可以从 Python Package Index 或其他可信的源下载这些包的 .tar.gz 或 .whl 文件。

这里有打包好的完整下载包，包括依赖包。一键下载地址

上传至 CentOS
使用 rz 或 scp 命令将下载的文件上传至 CentOS 系统的某个目录下，例如 /usr/local。
解压安装包
在 /usr/local 目录下，使用以下命令解压安装包：

tar -zxvf setuptools-41.1.0.post1.tar.gz tar -zxvf pip-19.2.2.tar.gz tar -zxvf requests-2.22.0.tar.gz # 解压其他依赖包

安装 setuptools
Setuptools 是 Python 的一个包，用于简化构建、分发、安装 Python 包的过程。

tar -zxvf setuptools-41.1.0.post1.tar.gz
cd setuptools-41.1.0.post1/
python setup.py install
安装 pip
Pip 是 Python 的包管理工具，用于安装和管理 Python 库。

tar -zxvf pip-19.2.2.tar.gz
cd pip-19.2.2/
python setup.py install
安装 Requests 的依赖包
Requests 库有一些依赖包，需要先安装这些依赖包。

安装 certifi
Certifi 是一个 Python 包，提供 Mozilla 的 CA 证书包。

pip install certifi-2019.11.28-py2.py3-none-any.whl

安装 chardet
Chardet 是一个字符编码检测器。

pip install chardet-3.0.4-py2.py3-none-any.whl

安装 idna
IDN-A 是一个国际域名解析库。

pip install idna-2.5-py2.py3-none-any.whl

安装 urllib3
Urllib3 是一个强大的 HTTP 客户端库。

pip install urllib3-1.25.8-py2.py3-none-any.whl

安装 Requests 库
在安装完所有依赖后，可以安装 Requests 库。

pip install requests-2.23.0-py2.py3-none-any。whl

验证安装
安装完成后，可以通过以下方式验证 Requests 库是否安装成功：

python >>> import requests >>> requests.version

如果能够成功导入 requests 并且打印出版本号，则表示安装成功。

常见问题
权限问题：在安装过程中，如果遇到权限问题，可以使用 sudo 来获取管理员权限。

依赖冲突：如果在安装过程中提示依赖冲突，可能需要先卸载旧版本的依赖包。

作者 east

月度归档6月 2024