bug清单 – gitweixin

bug清单 3月 23,2025

解决error while loading shared libraries: libc.so.6: cannot open shared object file: No such file or directory

问题分析

libc.so.6 是 Linux 系统中 GNU C 库（glibc）的核心动态链接库，几乎所有基础命令（如 ls、mv、cp 等）都依赖此库。若因误操作将其重命名或删除，会导致系统命令无法运行，并报错：

basherror while loading shared libraries: libc.so.6: cannot open shared object file: No such file or directory

解决方案

1. 若当前终端会话未断开

如果仍能通过 SSH 或其他方式登录系统（未关闭当前终端窗口），可通过以下步骤直接修复：

临时指定动态库路径：
使用 LD_PRELOAD 环境变量强制指定一个可用的 glibc 库（如原文件的备份）

export LD_PRELOAD=/lib64/libc-2.xx.so.backup  # 替换为你的备份文件路径

恢复原文件名：
通过 mv 或 ln 命令将重命名的文件恢复为 libc.so.6

mv /lib64/libc.so.6.backup /lib64/libc.so.6 # 或重建软链接（适用于软链接被破坏的情况） 
ln -sf /lib64/libc-2.xx.so /lib64/libc.so.6

2. 若终端会话已断开或系统崩溃

如果已无法登录系统（如 SSH 断开或系统重启后无法进入），需通过 救援模式（Rescue Mode） 或 Live CD 修复：

进入救援模式：
- 使用系统安装盘或 Live CD 启动，选择 “Rescue installed system” 或类似选项。
- 挂载原系统的根分区到 /mnt/sysimage。
手动修复文件：

chroot /mnt/sysimage  # 切换到原系统环境
 mv /lib64/libc.so.6.backup /lib64/libc.so.6  # 恢复文件名 # 或重建软链接 ln -sf /lib64/libc-2.xx.so /lib64/libc.so.6

重启系统：
执行 reboot 并移除安装介质5。

3. 注意事项与预防措施

避免直接覆盖系统库：
如通过 scp 或其他方式覆盖 libc.so.6，可能导致版本不兼容（如高版本替换低版本），进而引发系统崩溃5。
备份关键文件：
对 /lib64 目录下的核心库（如 libc.so.6、ld-linux-x86-64.so.2）定期备份。
使用容器隔离风险：
在测试或生产环境中，优先使用 Docker 容器运行依赖高版本 glibc 的应用，避免直接修改系统库2。

作者 east

bug清单, 运维 3月 23,2025

解决Error: /usr/lib64/libc.so.6: version `GLIBC_2.18′ not found

在centos运行node应用，分析下面报错并给出解决方案：node:internal/modules/cjs/loader:1282 return process.dlopen(module, path.toNamespacedPath(filename)); ^ Error: /usr/lib64/libc.so.6: version `GLIBC_2.18′ not found (required by /home/wwwroot/gitweixin/tool/svg2jpgApi/node_modules/canvas/build/Release/librsvg-2.so.2) at Object.Module._extensions..node (node:internal/modules/cjs/loader:1282:18) at Module.load (node:internal/modules/cjs/loader:1076:32) at Function.Module._load (node:internal/modules/cjs/loader:911:12) at Module.require (node:internal/modules/cjs/loader:1100:19) at require (node:internal/modules/cjs/helpers:119:18) at Object.<anonymous> (/home/wwwroot/gitweixin/tool/svg2jpgApi/node_modules/canvas/lib/bindings.js:3:18) at Module._compile (node:internal/modules/cjs/loader:1198:14) at Object.Module._extensions..js (node:internal/modules/cjs/loader:1252:10) at Module.load (node:internal/modules/cjs/loader:1076:32) at Function.Module._load (node:internal/modules/cjs/loader:911:12) { code: ‘ERR_DLOPEN_FAILED’

在CentOS上运行Node应用时遇到的GLIBC版本问题，可以通过以下步骤解决：

错误分析

根本原因：应用依赖的canvas模块需要GLIBC_2.18，但当前系统的GLIBC版本过低（如CentOS 7默认使用GLIBC 2.17）。
影响：系统缺失所需GLIBC版本，导致Node无法加载原生模块（librsvg-2.so.2）。

解决方案

方法1：重新构建`canvas`模块（推荐优先尝试）

安装构建依赖：bash复制sudo yum install -y gcc-c++ cairo cairo-devel libjpeg-turbo-devel pango pango-devel giflib-devel
重新编译canvas：bash复制# 删除现有模块并重新安装 rm -rf node_modules npm install
- 如果问题依旧，尝试强制重建原生模块：bash复制npm rebuild canvas –update-binary

方法2：升级GLIBC（谨慎操作）

警告：升级GLIBC可能导致系统不稳定，仅建议在测试环境中使用。

下载并编译GLIBC 2.18：bash复制# 安装依赖 sudo yum install -y bison make gcc # 下载源码 wget http://ftp.gnu.org/gnu/glibc/glibc-2.18.tar.gz tar -xzf glibc-2.18.tar.gz cd glibc-2.18 # 编译安装（指定目录避免覆盖系统文件） mkdir build && cd build ../configure –prefix=/opt/glibc-2.18 make -j4 sudo make install
临时指定GLIBC路径运行Node应用：bash复制LD_LIBRARY_PATH=/opt/glibc-2.18/lib node your-app.js

方法3：使用Docker容器（推荐生产环境）

通过Docker隔离环境，避免修改宿主机GLIBC。

创建Dockerfile：Dockerfile复制FROM centos:7 # 安装依赖 RUN yum install -y gcc-c++ cairo cairo-devel libjpeg-turbo-devel pango pango-devel giflib-devel # 安装Node.js RUN curl -sL https://rpm.nodesource.com/setup_14.x | bash – RUN yum install -y nodejs # 复制应用代码 WORKDIR /app COPY package*.json ./ RUN npm install COPY . . CMD [“node”, “your-app.js”]
构建并运行容器：bash复制docker build -t node-app . docker run -it –rm node-app

方法4：使用第三方仓库（如SCL）

CentOS 7可通过Software Collections（SCL）获取较新工具链。

启用SCL仓库：bash复制sudo yum install -y centos-release-scl
安装高版本开发工具链：bash复制sudo yum install -y devtoolset-8
使用新工具链编译应用：bash复制scl enable devtoolset-8 bash rm -rf node_modules npm install

总结建议

推荐方案：优先尝试方法1（重新构建）或方法3（Docker），避免直接升级GLIBC的风险。
生产环境：强烈建议使用Docker容器化部署，确保环境一致性。
备用方案：若必须升级GLIBC，务必在测试环境中验证稳定性。

作者 east

bug清单, Flink 3月 5,2025

解决Flink SQL:Exception in thread “main” org.apache.flink.table.api.ValidationException: Rowtime attribute ‘ptime’ must be of type TIMESTAMP or TIMESTAMP_LTZ but is of type ‘BIGINT’.

在开发Flink SQL时报错：

在flink 1.16版本中执行报错：Exception in thread "main" org.apache.flink.table.api.ValidationException: Rowtime attribute 'ptime' must be of type TIMESTAMP or TIMESTAMP_LTZ but is of type 'BIGINT'.

	at org.apache.flink.table.api.TableSchema.validateColumnsAndWatermarkSpecs(TableSchema.java:535)

	at org.apache.flink.table.api.TableSchema.access$100(TableSchema.java:73)

	at org.apache.flink.table.api.TableSchema$Builder.build(TableSchema.java:802)

	at org.apache.flink.table.planner.operations.MergeTableLikeUtil$SchemaBuilder.build(MergeTableLikeUtil.java:534)

	at org.apache.flink.table.planner.operations.MergeTableLikeUtil.mergeTables(MergeTableLikeUtil.java:154)

	at org.apache.flink.table.planner.operations.SqlCreateTableConverter.createCatalogTable(SqlCreateTableConverter.java:171)

	at org.apache.flink.table.planner.operations.SqlCreateTableConverter.convertCreateTable(SqlCreateTableConverter.java:74)

	at org.apache.flink.table.planner.operations.SqlToOperationConverter.convertValidatedSqlNode(SqlToOperationConverter.java:330)

	at org.apache.flink.table.planner.operations.SqlToOperationConverter.convert(SqlToOperationConverter.java:282)

	at org.apache.flink.table.planner.delegation.ParserImpl.parse(ParserImpl.java:106)

	at org.apache.flink.table.api.internal.TableEnvironmentImpl.executeSql(TableEnvironmentImpl.java:758)

	at com.chuneng.saas.doris.FlinkDorisExtremeValueCalculation.main(FlinkDorisExtremeValueCalculation.java:44)

原因分析

错误的核心在于：Flink 要求用于定义 WATERMARK 的字段必须是 TIMESTAMP 或 TIMESTAMP_LTZ 类型，但你的 ptime 字段被定义为 BIGINT 类型。尽管你在 WATERMARK 中尝试将 ptime 转换为 TIMESTAMP，但 Flink 的 WATERMARK 语法要求直接引用一个已经存在的 TIMESTAMP 类型字段，而不是在 WATERMARK 定义中动态转换类型。

解决方案

你需要通过 计算列（Computed Column） 将 ptime 的 BIGINT 类型转换为 TIMESTAMP 类型，然后将 WATERMARK 绑定到计算列上。

例如像下面这样：

String sourceDDL = "CREATE TABLE ods_t_iot_data (" +
        "pid STRING," +
        "pvalue DECIMAL(13,3)," +
        "ptime BIGINT," +
        "ds DATE," +
        // 定义计算列，将 BIGINT 类型的 ptime 转换为 TIMESTAMP
        "event_time AS TO_TIMESTAMP(FROM_UNIXTIME(ptime / 1000))," + 
        // 绑定 WATERMARK 到计算列 event_time
        "WATERMARK FOR event_time AS event_time - INTERVAL '5' SECOND" +
        ") WITH (" +
        "'connector' = 'doris'," +
        "'fenodes' = '10.0.0.1:8030'," +
        "'table.identifier' = 'cnsaas.ods_t_iot'," +
        "'username' = 'root'," +
        "'password' = ''" +
        ")";

作者 east

bug清单, Flink 3月 5,2025

解决Flink SQL报错”Exception in thread “main” java.lang.IllegalStateException: please declare primary key for sink table when query contains update/delete record”

在开发Flink SQL时报错”Exception in thread “main” java.lang.IllegalStateException: please declare primary key for sink table when query contains update/delete record”

这个错误表明您的Flink作业涉及更新或删除操作（如CDC场景），而JDBC Sink表没有定义主键。以下是详细分析和解决方案：

错误原因分析

当Flink作业涉及UPDATE/DELETE操作时（常见于CDC场景或使用Retract流），JDBC Sink表必须显式声明主键，因为：

主键用于定位目标数据库中需要更新的记录
没有主键时，Flink无法确定如何执行更新/删除操作

解决方案

在表定义中添加 PRIMARY KEY 声明（需与目标数据库表主键一致），例如：

val sinkDDL =
  """
    |CREATE TABLE dws_iot_extreme_info_min (
    |  device_code STRING,
    |  `day` DATE,
    |  ptime BIGINT,
    |  station_sn STRING,
    |  unit STRING,
    |  cu_device_code STRING,
    |  max_u_value DECIMAL(5,3),
    |  min_u_value DECIMAL(5,3),
    |  max_t_value DECIMAL(5,2),
    |  min_t_value DECIMAL(5,2),
    |  max_soc_value DECIMAL(5,2),
    |  min_soc_value DECIMAL(5,2),
    |  max_u_time BIGINT,
    |  min_u_time BIGINT,
    |  max_t_time BIGINT,
    |  min_t_time BIGINT,
    |  max_soc_time BIGINT,
    |  min_soc_time BIGINT,
    |  dt DATE,
    |  PRIMARY KEY (device_code, `day`) NOT ENFORCED  -- 添加主键声明
    |) WITH (
    |  'connector' = 'jdbc',
    |  'url' = 'jdbc:mysql://10.0.2.2:3306/cnsaas',
    |  'table-name' = 'dws_bigdata_device_extreme_info_min',
    |  'driver' = 'com.mysql.cj.jdbc.Driver',
    |  'username' = 'root',
    |  'password' = '',
    |  'sink.buffer-flush.max-rows' = '1000',    
    |  'sink.buffer-flush.interval' = '1s',      
    |  'sink.max-retries' = '3'                 
    |)
    |""".stripMargin

关键修改点说明

主键声明：PRIMARY KEY (device_code, `day`) NOT ENFORCED
- 主键字段需与目标数据库表的主键一致
- NOT ENFORCED 表示Flink不会校验数据主键约束，由数据库负责
目标表要求：
- MySQL数据库中 dws_iot_extreme_info_min 表必须有相同的主键定义
- 可通过以下SQL确保主键存在：
- ALTER TABLE dws_iot_extreme_info_min ADD PRIMARY KEY (device_code, day);

作者 east

bug清单, Flink 1月 23,2025

解决flink 1.7通过Flink Doris Connector写入Caused by: java.lang.NullPointerException: Unknown checkpoint for org.apache.flink.streaming.api.connector.sink2.CommittableWithLineage

在flink 1.7项目，通过Flink Doris Connector，采用批处理读取Doris数据进行计算然后写入到doris的另外一个表。采用flink sql方式。

原来的代码进行脱敏后的代码如下：

EnvironmentSettings settings = EnvironmentSettings.newInstance().inBatchMode().build();
TableEnvironment tableEnvironment = TableEnvironment.create(settings);

// 数据源配置
String sourceDDL = "CREATE TABLE <SOURCE_TABLE_NAME>(" +
        "pid STRING," +
        "pvalue decimal(39,3)," +
        "ptime TIMESTAMP(3)," +
        "ds DATE" +
        ") WITH (" +
        "'connector' = 'doris'," +
        "'fenodes' = '<IP_ADDRESS>:<PORT>'," +
        "'table.identifier' = '<DATABASE_NAME>.<TABLE_NAME>'," +
        "'username' = '<USERNAME>'," +
        "'password' = '<PASSWORD>'" +
        ")";

tableEnvironment.executeSql(sourceDDL);
// 获取当前时间戳
String timestamp = String.valueOf(System.currentTimeMillis());

// 目标 Doris 表 DDL
String sinkDDL = "CREATE TABLE <TARGET_TABLE_NAME> (" +
        "station_sn STRING," +
        "pid_system_code STRING," +
        "`day` STRING," +
        "`value` STRING," +
        "created_at TIMESTAMP(3)," +
        "dt DATE" +
        ") WITH (" +
        "'connector' = 'doris'," +
        "'fenodes' = '<IP_ADDRESS>:<PORT>'," +
        "'table.identifier' = '<DATABASE_NAME>.<TABLE_NAME>'," +
        "'username' = '<USERNAME>'," +
        "'password' = '<PASSWORD>'," +
        "'sink.label-prefix' = '<LABEL_PREFIX>_" + timestamp + "'" +
        ")";

执行报错如下：

Exception in thread "main" java.util.concurrent.ExecutionException: org.apache.flink.table.api.TableException: Failed to wait job finish
	at java.util.concurrent.CompletableFuture.reportGet(CompletableFuture.java:357)
	at java.util.concurrent.CompletableFuture.get(CompletableFuture.java:1895)
	at org.apache.flink.table.api.internal.TableResultImpl.awaitInternal(TableResultImpl.java:118)
	at org.apache.flink.table.api.internal.TableResultImpl.await(TableResultImpl.java:81)
	at com.chuneng.saas.doris.FlinkBatchSql.main(FlinkBatchSql.java:68)
Caused by: org.apache.flink.table.api.TableException: Failed to wait job finish
	at org.apache.flink.table.api.internal.InsertResultProvider.hasNext(InsertResultProvider.java:85)
	at org.apache.flink.table.api.internal.InsertResultProvider.isFirstRowReady(InsertResultProvider.java:71)
	at org.apache.flink.table.api.internal.TableResultImpl.lambda$awaitInternal$1(TableResultImpl.java:105)
	at java.util.concurrent.CompletableFuture$AsyncRun.run(CompletableFuture.java:1626)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
	at java.lang.Thread.run(Thread.java:748)
Caused by: java.util.concurrent.ExecutionException: org.apache.flink.runtime.client.JobExecutionException: Job execution failed.
	at java.util.concurrent.CompletableFuture.reportGet(CompletableFuture.java:357)
	at java.util.concurrent.CompletableFuture.get(CompletableFuture.java:1895)
	at org.apache.flink.table.api.internal.InsertResultProvider.hasNext(InsertResultProvider.java:83)
	... 6 more
Caused by: org.apache.flink.runtime.client.JobExecutionException: Job execution failed.
	at org.apache.flink.runtime.jobmaster.JobResult.toJobExecutionResult(JobResult.java:144)
	at org.apache.flink.runtime.minicluster.MiniClusterJobClient.lambda$getJobExecutionResult$3(MiniClusterJobClient.java:141)
	at java.util.concurrent.CompletableFuture.uniApply(CompletableFuture.java:602)
	at java.util.concurrent.CompletableFuture$UniApply.tryFire(CompletableFuture.java:577)
	at java.util.concurrent.CompletableFuture.postComplete(CompletableFuture.java:474)
	at java.util.concurrent.CompletableFuture.complete(CompletableFuture.java:1962)
	at org.apache.flink.runtime.rpc.akka.AkkaInvocationHandler.lambda$invokeRpc$1(AkkaInvocationHandler.java:267)
	at java.util.concurrent.CompletableFuture.uniWhenComplete(CompletableFuture.java:760)
	at java.util.concurrent.CompletableFuture$UniWhenComplete.tryFire(CompletableFuture.java:736)
	at java.util.concurrent.CompletableFuture.postComplete(CompletableFuture.java:474)
	at java.util.concurrent.CompletableFuture.complete(CompletableFuture.java:1962)
	at org.apache.flink.util.concurrent.FutureUtils.doForward(FutureUtils.java:1300)
	at org.apache.flink.runtime.concurrent.akka.ClassLoadingUtils.lambda$null$1(ClassLoadingUtils.java:93)
	at org.apache.flink.runtime.concurrent.akka.ClassLoadingUtils.runWithContextClassLoader(ClassLoadingUtils.java:68)
	at org.apache.flink.runtime.concurrent.akka.ClassLoadingUtils.lambda$guardCompletionWithContextClassLoader$2(ClassLoadingUtils.java:92)
	at java.util.concurrent.CompletableFuture.uniWhenComplete(CompletableFuture.java:760)
	at java.util.concurrent.CompletableFuture$UniWhenComplete.tryFire(CompletableFuture.java:736)
	at java.util.concurrent.CompletableFuture.postComplete(CompletableFuture.java:474)
	at java.util.concurrent.CompletableFuture.complete(CompletableFuture.java:1962)
	at org.apache.flink.runtime.concurrent.akka.AkkaFutureUtils$1.onComplete(AkkaFutureUtils.java:47)
	at akka.dispatch.OnComplete.internal(Future.scala:300)
	at akka.dispatch.OnComplete.internal(Future.scala:297)
	at akka.dispatch.japi$CallbackBridge.apply(Future.scala:224)
	at akka.dispatch.japi$CallbackBridge.apply(Future.scala:221)
	at scala.concurrent.impl.CallbackRunnable.run(Promise.scala:64)
	at org.apache.flink.runtime.concurrent.akka.AkkaFutureUtils$DirectExecutionContext.execute(AkkaFutureUtils.java:65)
	at scala.concurrent.impl.CallbackRunnable.executeWithValue(Promise.scala:72)
	at scala.concurrent.impl.Promise$DefaultPromise.$anonfun$tryComplete$1(Promise.scala:288)
	at scala.concurrent.impl.Promise$DefaultPromise.$anonfun$tryComplete$1$adapted(Promise.scala:288)
	at scala.concurrent.impl.Promise$DefaultPromise.tryComplete(Promise.scala:288)
	at akka.pattern.PromiseActorRef.$bang(AskSupport.scala:622)
	at akka.pattern.PipeToSupport$PipeableFuture$$anonfun$pipeTo$1.applyOrElse(PipeToSupport.scala:24)
	at akka.pattern.PipeToSupport$PipeableFuture$$anonfun$pipeTo$1.applyOrElse(PipeToSupport.scala:23)
	at scala.concurrent.Future.$anonfun$andThen$1(Future.scala:536)
	at scala.concurrent.impl.Promise.liftedTree1$1(Promise.scala:33)
	at scala.concurrent.impl.Promise.$anonfun$transform$1(Promise.scala:33)
	at scala.concurrent.impl.CallbackRunnable.run(Promise.scala:64)
	at akka.dispatch.BatchingExecutor$AbstractBatch.processBatch(BatchingExecutor.scala:63)
	at akka.dispatch.BatchingExecutor$BlockableBatch.$anonfun$run$1(BatchingExecutor.scala:100)
	at scala.runtime.java8.JFunction0$mcV$sp.apply(JFunction0$mcV$sp.java:23)
	at scala.concurrent.BlockContext$.withBlockContext(BlockContext.scala:85)
	at akka.dispatch.BatchingExecutor$BlockableBatch.run(BatchingExecutor.scala:100)
	at akka.dispatch.TaskInvocation.run(AbstractDispatcher.scala:49)
	at akka.dispatch.ForkJoinExecutorConfigurator$AkkaForkJoinTask.exec(ForkJoinExecutorConfigurator.scala:48)
	at java.util.concurrent.ForkJoinTask.doExec(ForkJoinTask.java:289)
	at java.util.concurrent.ForkJoinPool$WorkQueue.runTask(ForkJoinPool.java:1056)
	at java.util.concurrent.ForkJoinPool.runWorker(ForkJoinPool.java:1692)
	at java.util.concurrent.ForkJoinWorkerThread.run(ForkJoinWorkerThread.java:157)
Caused by: org.apache.flink.runtime.JobException: Recovery is suppressed by NoRestartBackoffTimeStrategy
	at org.apache.flink.runtime.executiongraph.failover.flip1.ExecutionFailureHandler.handleFailure(ExecutionFailureHandler.java:139)
	at org.apache.flink.runtime.executiongraph.failover.flip1.ExecutionFailureHandler.getFailureHandlingResult(ExecutionFailureHandler.java:83)
	at org.apache.flink.runtime.scheduler.DefaultScheduler.recordTaskFailure(DefaultScheduler.java:258)
	at org.apache.flink.runtime.scheduler.DefaultScheduler.handleTaskFailure(DefaultScheduler.java:249)
	at org.apache.flink.runtime.scheduler.DefaultScheduler.onTaskFailed(DefaultScheduler.java:242)
	at org.apache.flink.runtime.scheduler.SchedulerBase.onTaskExecutionStateUpdate(SchedulerBase.java:748)
	at org.apache.flink.runtime.scheduler.SchedulerBase.updateTaskExecutionState(SchedulerBase.java:725)
	at org.apache.flink.runtime.scheduler.SchedulerNG.updateTaskExecutionState(SchedulerNG.java:80)
	at org.apache.flink.runtime.jobmaster.JobMaster.updateTaskExecutionState(JobMaster.java:479)
	at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
	at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
	at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
	at java.lang.reflect.Method.invoke(Method.java:498)
	at org.apache.flink.runtime.rpc.akka.AkkaRpcActor.lambda$handleRpcInvocation$1(AkkaRpcActor.java:309)
	at org.apache.flink.runtime.concurrent.akka.ClassLoadingUtils.runWithContextClassLoader(ClassLoadingUtils.java:83)
	at org.apache.flink.runtime.rpc.akka.AkkaRpcActor.handleRpcInvocation(AkkaRpcActor.java:307)
	at org.apache.flink.runtime.rpc.akka.AkkaRpcActor.handleRpcMessage(AkkaRpcActor.java:222)
	at org.apache.flink.runtime.rpc.akka.FencedAkkaRpcActor.handleRpcMessage(FencedAkkaRpcActor.java:84)
	at org.apache.flink.runtime.rpc.akka.AkkaRpcActor.handleMessage(AkkaRpcActor.java:168)
	at akka.japi.pf.UnitCaseStatement.apply(CaseStatements.scala:24)
	at akka.japi.pf.UnitCaseStatement.apply(CaseStatements.scala:20)
	at scala.PartialFunction.applyOrElse(PartialFunction.scala:127)
	at scala.PartialFunction.applyOrElse$(PartialFunction.scala:126)
	at akka.japi.pf.UnitCaseStatement.applyOrElse(CaseStatements.scala:20)
	at scala.PartialFunction$OrElse.applyOrElse(PartialFunction.scala:175)
	at scala.PartialFunction$OrElse.applyOrElse(PartialFunction.scala:176)
	at scala.PartialFunction$OrElse.applyOrElse(PartialFunction.scala:176)
	at akka.actor.Actor.aroundReceive(Actor.scala:537)
	at akka.actor.Actor.aroundReceive$(Actor.scala:535)
	at akka.actor.AbstractActor.aroundReceive(AbstractActor.scala:220)
	at akka.actor.ActorCell.receiveMessage(ActorCell.scala:579)
	at akka.actor.ActorCell.invoke(ActorCell.scala:547)
	at akka.dispatch.Mailbox.processMailbox(Mailbox.scala:270)
	at akka.dispatch.Mailbox.run(Mailbox.scala:231)
	at akka.dispatch.Mailbox.exec(Mailbox.scala:243)
	... 4 more
Caused by: java.lang.NullPointerException: Unknown checkpoint for org.apache.flink.streaming.api.connector.sink2.CommittableWithLineage@265569e2
	at org.apache.flink.util.Preconditions.checkNotNull(Preconditions.java:104)
	at org.apache.flink.streaming.runtime.operators.sink.committables.CommittableCollector.getCheckpointCommittables(CommittableCollector.java:241)
	at org.apache.flink.streaming.runtime.operators.sink.committables.CommittableCollector.addCommittable(CommittableCollector.java:234)
	at org.apache.flink.streaming.runtime.operators.sink.committables.CommittableCollector.addMessage(CommittableCollector.java:126)
	at org.apache.flink.streaming.runtime.operators.sink.CommitterOperator.processElement(CommitterOperator.java:193)
	at org.apache.flink.streaming.runtime.tasks.OneInputStreamTask$StreamTaskNetworkOutput.emitRecord(OneInputStreamTask.java:237)
	at org.apache.flink.streaming.runtime.io.AbstractStreamTaskNetworkInput.processElement(AbstractStreamTaskNetworkInput.java:146)
	at org.apache.flink.streaming.runtime.io.AbstractStreamTaskNetworkInput.emitNext(AbstractStreamTaskNetworkInput.java:110)
	at org.apache.flink.streaming.runtime.io.StreamOneInputProcessor.processInput(StreamOneInputProcessor.java:65)
	at org.apache.flink.streaming.runtime.tasks.StreamTask.processInput(StreamTask.java:550)
	at org.apache.flink.streaming.runtime.tasks.mailbox.MailboxProcessor.runMailboxLoop(MailboxProcessor.java:231)
	at org.apache.flink.streaming.runtime.tasks.StreamTask.runMailboxLoop(StreamTask.java:839)
	at org.apache.flink.streaming.runtime.tasks.StreamTask.invoke(StreamTask.java:788)
	at org.apache.flink.runtime.taskmanager.Task.runWithSystemExitMonitoring(Task.java:952)
	at org.apache.flink.runtime.taskmanager.Task.restoreAndInvoke(Task.java:931)
	at org.apache.flink.runtime.taskmanager.Task.doRun(Task.java:745)
	at org.apache.flink.runtime.taskmanager.Task.run(Task.java:562)
	at java.lang.Thread.run(Thread.java:748)

这可能是 Flink 批处理模式下通常不需要 checkpoint，但 Doris Sink Connector 默认可能依赖 checkpoint 相关逻辑，从而导致 NullPointerException。

添加与 sink 行为相关的参数，设置不用 checkpoint 。

修改后的sink如下：

String sinkDDL = “CREATE TABLE (” +
“station_sn STRING,” +
“pid_system_code STRING,” +
“day STRING,” +
“value STRING,” +
“created_at TIMESTAMP(3),” +
“dt DATE” +
“) WITH (” +
“‘connector’ = ‘doris’,” +
“‘fenodes’ = ‘:’,” +
“‘table.identifier’ = ‘.’,” +
“‘username’ = ”,” +
“‘password’ = ”,” +
“‘sink.label-prefix’ = ‘_” + timestamp + “‘,” +

"'doris.batch.size' = '1000'," +  // 批量写入大小
"'sink.enable-2pc' = 'false'" +  // 禁用两阶段提交
         ")";

作者 east

bug清单, Flink 1月 23,2025

解决flink 1.7 Exception in thread “main” org.apache.flink.table.api.ValidationException: Unable to create a sink for writing table

问题分析

报错提示的主要内容
- ValidationException: Unable to create a sink for writing table ...
- Could not load service provider for factories 和 org.apache.flink.table.planner.delegation.DefaultExecutorFactory not a subtype。
- 这些问题通常是因为 Flink 运行环境或依赖配置不正确。
可能原因
- Flink 和 Doris 依赖版本不匹配：
  - 使用的 Flink Doris Connector 是 flink-doris-connector-1.17，其版本号为 24.0.1，需要确保它与当前 Flink 的版本（1.17.x）兼容。或者flink的jar包有的不是1.17.x版本，和上面的 link-doris-connector-1.17 不兼容。

解决方案

1. 检查 Flink 和 Doris Connector 的兼容性

确认 Flink 和 Doris Connector 的版本兼容。
当前使用的是 flink-doris-connector-1.17，对应 Flink 1.17.x。如果使用的是其他版本的 Flink（如 1.16 或 1.18），需要更换依赖：

<dependency>
    <groupId>org.apache.doris</groupId>
    <artifactId>flink-doris-connector-1.17</artifactId>
    <version>24.0.1</version>
</dependency>

2. 添加 Flink Doris Connector 所需的运行时依赖

确保项目中包含以下依赖（建议手动检查 pom.xml 是否缺失），检查flink的jar是否都是1.17.x版本：

<dependency>
    <groupId>org.apache.doris</groupId>
    <artifactId>flink-doris-connector-1.17</artifactId>
    <version>24.0.1</version>
</dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-table-planner_2.12</artifactId>
    <version>1.17.0</version>
    <scope>provided</scope>
</dependency>

确保 flink-table-planner_2.12 版本与 Flink 版本匹配。

作者 east

bug清单, Flink 1月 23,2025

解决flink 1.7项目找不到org.apache.flink.table.descriptors.TableDescriptor

flink版本1.7的项目代码如下：

   StreamExecutionEnvironment executionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment();
        executionEnvironment.setParallelism(1);

        // 设置 Flink SQL 环境
        EnvironmentSettings settings = EnvironmentSettings.newInstance().inStreamingMode().build();
        StreamTableEnvironment tableEnvironment = StreamTableEnvironment.create(executionEnvironment, settings);

运行报错找不到org.apache.flink.table.descriptors.TableDescriptor。

问题分析

依赖冲突或缺失：
- Flink 1.17.2 中 TableDescriptor 类已被废弃。Flink 1.13 开始引入了 TableDescriptor 的新概念，用于定义表源和表目标，而旧版依赖中的 org.apache.flink.table.descriptors 相关类在后续版本中被逐步移除。
- 如果代码中还有引用 org.apache.flink.table.descriptors 包下的类（如连接器或格式描述符），可能导致运行时报错。
API 版本不匹配：
- 在 Flink 1.17.2 中，推荐使用 Table API 的新方式（TableDescriptor 不再使用）。这可能意味着您正在使用旧版本的 API，或者您的代码依赖了不兼容的旧包。

解决方案

1. 检查代码中是否仍在使用旧版 API

移除任何对 org.apache.flink.table.descriptors 的直接依赖。使用以下代码替换旧方法：

// 创建 Flink 流执行环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1);

// 创建 Flink SQL 表执行环境
EnvironmentSettings settings = EnvironmentSettings.newInstance().inStreamingMode().build();
StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env, settings);

// 定义表源或目标时，使用 Table API 的新方式
TableDescriptor descriptor = TableDescriptor.forConnector("kafka") // 替换为实际使用的连接器
        .schema(Schema.newBuilder()
                .column("field1", DataTypes.STRING())
                .column("field2", DataTypes.INT())
                .build())
        .format("json") // 替换为实际使用的格式
        .option("property.key", "value") // 替换为实际连接器选项
        .build();

tableEnv.createTemporaryTable("my_table", descriptor);

2. 更新依赖

确保项目使用的依赖与 Flink 1.17.2 版本兼容。在 pom.xml 或 build.gradle 文件中明确声明以下依赖：

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-streaming-java_2.12</artifactId>
    <version>1.17.2</version>
</dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-table-api-java-bridge_2.12</artifactId>
    <version>1.17.2</version>
</dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-table-planner_2.12</artifactId>
    <version>1.17.2</version>
    <scope>provided</scope>
</dependency>

3. 清理旧依赖

如果仍需要使用 TableDescriptor 类，请确认没有混用老旧版本的连接器或额外库，例如 flink-connector-kafka 等。检查项目中是否存在以下老依赖，并替换为新版依赖：

旧版依赖示例：

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-table-common</artifactId>
    <version>1.12.x</version>
</dependency>

作者 east

bug清单, Flink 1月 23,2025

解决flink 1.7项目 java.lang.ClassNotFoundException: org.apache.flink.shaded.guava18.com.google.common.collect.ImmutableList

运行flink 1.7的项目，报错如下：

Exception in thread “main” java.lang.NoClassDefFoundError: org/apache/flink/shaded/guava18/com/google/common/collect/ImmutableList at org.apache.flink.table.planner.plan.schema.FlinkPreparingTableBase.<init>(FlinkPreparingTableBase.java:92) at org.apache.flink.table.planner.plan.schema.ExpandingPreparingTable.<init>(ExpandingPreparingTable.java:42) at org.apache.flink.table.planner.catalog.QueryOperationCatalogViewTable.<init>(QueryOperationCatalogViewTable.java:49) at org.apache.flink.table.planner.catalog.QueryOperationCatalogViewTable.create(QueryOperationCatalogViewTable.java:58) at org.apache.flink.table.planner.plan.FlinkCalciteCatalogReader.convertQueryOperationView(FlinkCalciteCatalogReader.java:146) at org.apache.flink.table.planner.plan.FlinkCalciteCatalogReader.toPreparingTable(FlinkCalciteCatalogReader.java:110) at org.apache.flink.table.planner.plan.FlinkCalciteCatalogReader.getTable(FlinkCalciteCatalogReader.java:91) at org.apache.calcite.prepare.CalciteCatalogReader.getTableForMember(CalciteCatalogReader.java:229) at org.apache.calcite.sql.validate.SqlValidatorUtil.getRelOptTable(SqlValidatorUtil.java:144) at org.apache.calcite.sql.validate.SqlValidatorUtil.getRelOptTable(SqlValidatorUtil.java:110) at org.apache.calcite.sql2rel.SqlToRelConverter.convertIdentifier(SqlToRelConverter.java:2490) at org.apache.calcite.sql2rel.SqlToRelConverter.convertFrom(SqlToRelConverter.java:2144) at org.apache.calcite.sql2rel.SqlToRelConverter.convertFrom(SqlToRelConverter.java:2093) at org.apache.calcite.sql2rel.SqlToRelConverter.convertFrom(SqlToRelConverter.java:2050) at org.apache.calcite.sql2rel.SqlToRelConverter.convertSelectImpl(SqlToRelConverter.java:663) at org.apache.calcite.sql2rel.SqlToRelConverter.convertSelect(SqlToRelConverter.java:644) at org.apache.calcite.sql2rel.SqlToRelConverter.convertQueryRecursive(SqlToRelConverter.java:3438) at org.apache.calcite.sql2rel.SqlToRelConverter.convertQuery(SqlToRelConverter.java:570) at org.apache.flink.table.planner.calcite.FlinkPlannerImpl.org$apache$flink$table$planner$calcite$FlinkPlannerImpl$$rel(FlinkPlannerImpl.scala:165) at org.apache.flink.table.planner.calcite.FlinkPlannerImpl.rel(FlinkPlannerImpl.scala:157) at org.apache.flink.table.planner.operations.SqlToOperationConverter.toQueryOperation(SqlToOperationConverter.java:902) at org.apache.flink.table.planner.operations.SqlToOperationConverter.convertSqlQuery(SqlToOperationConverter.java:871) at org.apache.flink.table.planner.operations.SqlToOperationConverter.convert(SqlToOperationConverter.java:250) at org.apache.flink.table.planner.operations.SqlToOperationConverter.convertSqlInsert(SqlToOperationConverter.java:564) at org.apache.flink.table.planner.operations.SqlToOperationConverter.convert(SqlToOperationConverter.java:248) at org.apache.flink.table.planner.delegation.ParserImpl.parse(ParserImpl.java:77) at org.apache.flink.table.api.internal.TableEnvironmentImpl.executeSql(TableEnvironmentImpl.java:660) at com.chuneng.saas.doris.FlinkCuSohJdbcSqlAnalyze.main(FlinkCuSohJdbcSqlAnalyze.java:98) Caused by: java.lang.ClassNotFoundException: org.apache.flink.shaded.guava18.com.google.common.collect.ImmutableList at java.net.URLClassLoader.findClass(URLClassLoader.java:381) at java.lang.ClassLoader.loadClass(ClassLoader.java:424) at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:335) at java.lang.ClassLoader.loadClass(ClassLoader.java:357)

从报错信息 java.lang.NoClassDefFoundError: org/apache/flink/shaded/guava18/com/google/common/collect/ImmutableList 和 Caused by: java.lang.ClassNotFoundException: org.apache.flink.shaded.guava18.com.google.common.collect.ImmutableList 可以看出，程序在运行时无法找到 org.apache.flink.shaded.guava18.com.google.common.collect.ImmutableList 这个类。
这通常是因为相应的依赖库没有被正确地添加到项目的类路径中，导致 JVM 在运行时无法加载所需的类。

修改方案：

确认你是否在项目的构建文件（如 Maven 的 pom.xml 或 Gradle 的 build.gradle）中添加了 Apache Flink 相关的依赖。
确保使用的 Flink 版本是兼容的，并且其依赖的 Guava 版本是 flink-shaded-guava 的 18 版本。
对于 Maven 项目，检查 pom.xml 中是否有类似如下的依赖：

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-shaded-guava</artifactId>
    <version>18.0</version>
</dependency>

对于 Gradle 项目，检查 build.gradle 中是否有类似如下的依赖：

implementation 'org.apache.flink:flink-shaded-guava:18.0'

如果已经添加了依赖，可能是因为依赖冲突导致无法找到正确的类。可以使用 mvn dependency:tree（对于 Maven）或 gradle dependencies（对于 Gradle）命令查看依赖树，找出是否有多个版本的 Guava 被引入，然后通过排除冲突的依赖来解决。

作者 east

bug清单, 大数据开发 12月 25,2024

解决idea运行scala代码报错：scala: No ‘scala-library*.jar’ in Scala compiler classpath in Scala SDK Maven: org.scala-lang:scala-library:2.11.12

这个错误信息表明，Scala 编译器的 classpath 中缺少必要的 scala-library*.jar 文件，特别是 Scala SDK 所需的 scala-library 版本 2.11.12。错误发生的原因通常是因为项目的构建配置缺失或错误，导致 Scala 编译器无法找到正确的库文件。

分析原因：

Maven 配置问题： 错误信息中提到 Maven: org.scala-lang:scala-library:2.11.12，这表明你的项目在使用 Maven 来管理依赖。可能是 pom.xml 文件中的 Scala 依赖配置不正确，导致缺少 scala-library JAR 文件。
IDE 配置问题： 另一个可能的原因是 IntelliJ IDEA 中的 Scala SDK 配置不完整或错误。Scala SDK 包括了编译器和库，如果 SDK 配置不正确，IDE 就无法正确找到必要的库文件。

解决方案：

1. 检查 `pom.xml` 文件中的 Scala 依赖

确保 pom.xml 中包含了正确版本的 Scala 依赖。如果没有，请添加类似下面的配置：

<dependency>
    <groupId>org.scala-lang</groupId>
    <artifactId>scala-library</artifactId>
    <version>2.11.12</version>
</dependency>

如果你使用的是其他 Scala 版本（如 2.13 或 3.x），需要替换为相应的版本号。

2. 确保项目中配置了正确的 Scala 编译器和 SDK

在 IntelliJ IDEA 中，检查你是否已经配置了 Scala SDK。
- 打开 File -> Project Structure -> Modules -> 选择你的模块 -> Dependencies，确保选择了正确的 Scala SDK。
- 你也可以在 Project Structure 中检查 Scala SDK 的版本是否与你项目中使用的版本匹配。

3. 更新或重新下载 Scala 库

在 IntelliJ IDEA 中，尝试通过右键点击项目根目录并选择 Maven -> Reimport 来重新加载依赖。
如果仍然无法解决问题，可以尝试删除 ~/.m2/repository/org/scala-lang/scala-library/ 下的对应版本文件，然后重新构建项目。

如果上面的方法都没办法解决，可以删除
File>>Project Structure>>Libraries中删除默认的scala编译library，替换成本地的scala-sdk 。

首先在Global Libraries中添加本地scala-sdk

Modules -> 选择你的模块 -> Dependencies，确保选择本地 Scala SDK。

作者 east

bug清单 7月 26,2023

Datart页面报错：Handler dispatch failed; nested exception is java.lang.OutOfMemoryError: GC overhead limit exceeded

错误信息 “Handler dispatch failed; nested exception is java.lang.OutOfMemoryError: GC overhead limit exceeded” 表明datart应用程序在处理请求时发生了Java虚拟机（JVM）的内存溢出错误。具体来说，JVM无法及时回收垃圾对象，导致垃圾回收的开销超过了允许的阈值，从而触发了”GC overhead limit exceeded”错误。

可能的原因：

内存不足：datart应用程序所在的JVM分配的内存不足，导致垃圾回收无法正常进行，从而引发该错误。
内存泄漏：datart应用程序可能存在内存泄漏问题，导致大量对象无法被正确回收，最终耗尽了可用内存。
处理大数据量：datart应用程序在处理大规模数据或复杂查询时，可能导致内存占用过高，超过JVM限制。

解决方案：

针对上述可能的原因，可以采取以下步骤来解决问题：

增加JVM内存限制：增加datart应用程序所在JVM的内存限制，使其能够处理更大的数据量。这可以通过修改JVM启动参数中的-Xmx和-Xms选项来实现。例如，将-Xmx选项设置为较大的值，比如 “-Xmx4g” 表示最大可用内存为4GB。
检查内存泄漏：进行内存泄漏分析，查找可能导致内存泄漏的代码，并修复问题。可以使用一些Java内存分析工具（如VisualVM、MAT等）来辅助查找内存泄漏。
优化查询：对datart应用程序中的复杂查询进行优化，尽量减少内存占用。可以通过索引优化、查询优化等方式来改善查询性能。
分页查询：如果datart应用程序处理大数据量的查询，可以考虑引入分页查询，避免一次性加载过多数据到内存中。
升级应用程序：检查datart应用程序是否有已知的内存相关问题，并考虑升级到修复了这些问题的版本。
监控和警报：设置合适的监控和警报机制，当内存使用超过阈值时及时发出警报，以便及早发现和解决问题。
分析日志：查看datart应用程序的日志，特别是错误日志，以获取更多有关错误发生时的上下文信息，有助于进一步定位问题。

作者 east

bug清单, Hadoop 7月 25,2023

Transport-level exception trying to monitor health of NameNode at xxx: java.net.SocketTimeoutException: 45000 millis timeout while waiting for the channel to be ready for read

表明CDH 6.3.2中的某个组件（可能是其他节点的Datanode或NodeManager）在尝试监视位于CDH节点上的NameNode时，发生了Socket超时异常。这意味着在连接到NameNode时花费的时间超过了45秒，导致连接失败。

可能的原因：

网络问题：有可能是网络连接不稳定或者网络延迟导致连接超时。
资源不足：CDH的NameNode可能资源不足，导致响应变慢，从而引发超时异常。
防火墙或安全设置：防火墙或其他安全设置可能限制了节点之间的通信，导致连接超时。

解决方案：

针对上述可能的原因，可以采取以下步骤逐一排查和解决问题：

检查网络连接：确保所有节点之间的网络连接稳定，并且没有阻止节点之间通信的防火墙或其他网络限制。
检查资源：确认CDH上的NameNode是否具有足够的资源（CPU、内存、磁盘空间等）来处理请求。如果资源不足，可以考虑增加资源或优化配置。
检查防火墙和安全设置：确保防火墙或其他安全设置不会阻止节点之间的通信。可以检查防火墙规则和CDH安全配置。
检查NameNode日志：查看CDH上NameNode的日志，了解是否存在其他异常或错误信息，这可能有助于进一步定位问题。
调整超时时间：可以尝试增加超时时间，从而允许更长的连接时间。但这并不是根本解决问题的方法，只是一个临时调整。
更新或升级：如果发现该问题是由于已知的CDH或Hadoop bug引起的，可以尝试升级CDH版本或应用相关的补丁和更新。
联系支持：如果上述步骤无法解决问题，可以联系CDH或Hadoop的支持团队寻求进一步的帮助和调查。

作者 east

bug清单, Hadoop 7月 25,2023

CDH节点报“Role not started due to unhealthy host”，重启不了角色

CDH集群的 Datanode 挂掉了，要重新启动报错“Role not started due to unhealthy host”。查了一下，这表示主机处于不健康状态。这个错误大概有下面的原因：

可能的原因：

主机故障：Datanode所在的主机可能存在硬件故障或者网络问题，导致主机处于不可用状态，从而Datanode无法正常启动。
资源不足：主机资源（例如CPU、内存、磁盘空间）不足，导致Datanode启动失败。
防火墙或安全设置：防火墙或其他安全设置可能会阻止Datanode与其他节点进行通信，导致启动失败。
CDH组件问题：CDH组件可能出现问题，导致Datanode无法启动。

解决方案：

针对上述可能的原因，可以采取以下步骤逐一排查和解决问题：

检查主机状态：确保Datanode所在的主机处于健康状态，没有硬件故障或网络问题。可以通过运行系统命令或者在CDH管理界面查看主机状态。
检查资源：确认主机具有足够的资源（CPU、内存、磁盘空间等）来运行Datanode。如果资源不足，可以考虑升级主机或释放资源。
检查防火墙和安全设置：确保防火墙或其他安全设置不会阻止Datanode与其他节点进行通信。可以检查防火墙规则和CDH安全设置。
检查CDH组件状态：检查CDH的其他组件是否正常运行，特别是与Datanode相关的组件（如HDFS）。如果其他组件也出现问题，可能是由于CDH整体环境的故障。
查看日志：检查Datanode日志，通常在CDH的日志目录下，查看是否有相关错误信息提供更多线索。
重启服务：尝试重启Datanode服务，以便它重新连接到集群并解决任何临时问题。
联系支持：如果上述步骤无法解决问题，可以联系CDH或Hadoop支持团队寻求帮助。

后来还发现奇怪现象，jps查到datanode、namenode进程想要kill掉，一直kill不掉。经过排查，发现是服务器多块硬盘中其中一块坏了，导致CDH一直报
“Role not started due to unhealthy host ”。

作者 east

分类归档bug清单