east – 第42页 – gitweixin

大数据开发 5月 4,2023

在CDH6.3.2的大数据集群中，怎样安装dolphinscheduler调度器

安装MySQL (5.6.24+)，JDK (1.8.0_292+)，ZooKeeper (3.4.5+)，Hadoop (3.0.0+)等基础组件。
下载dolphinscheduler的二进制包，并解压到部署目录，如 /opt/module/dolphinscheduler。
在每台部署机器上创建部署用户 dolphinscheduler，并配置sudo免密和ssh免密登录。
在MySQL中创建数据库 dolphinscheduler，并授权给用户 dolphinscheduler。
修改 conf 目录下的 datasource.properties 和 dolphinscheduler_env.sh 文件，配置数据库连接信息和环境变量。
将 mysql-connector-java 驱动 jar 包复制到 lib 目录下。
执行 script/create-dolphinscheduler.sh 脚本，创建表和导入基础数据。
执行 bin/install.sh 脚本，一键部署。
访问 http://localhost:12345/dolphinscheduler ，使用默认账号 admin 和密码 dolphinscheduler123 登录。

dolphinscheduler 下载地址

https://www.apache.org/dyn/closer.lua/dolphinscheduler/3.1.5/apache-dolphinscheduler-3.1.5-bin.tar.gz

dolphinscheduler 部署指南

https://dolphinscheduler.apache.org/zh-cn/docs/3.1.5/%E9%83%A8%E7%BD%B2%E6%8C%87%E5%8D%97_menu

作者 east

Java 4月 28,2023

CDH上Flink执行sql-client命令提示[ERROR] Could not execute SQL statement. Reason: java.net.ConnectException: 拒绝连接

在cdh6.3.2上执行sql-client的命令，提示：

[ERROR] Could not execute SQL statement. Reason:
java.net.ConnectException: 拒绝连接

这可能是由于以下原因：

您没有启动flink集群，或者flink集群不可用。您可以检查flink集群的状态，或者尝试重新启动flink集群。
您没有正确地配置flink sql-client的环境，或者您的配置文件有误。您可以检查您的sql-client-defaults.yaml文件，或者参考官方文档来设置flink sql-client的环境。
您的网络有问题，或者您的防火墙阻止了flink sql-client的连接。您可以检查您的网络连接，或者允许flink sql-client通过防火墙。

原来是需要启动本地集群：

./start-cluster.sh
cd /opt/cloudera/parcels/FLINK-1.14.4-BIN-SCALA_2.12/lib/flink/bin

然后再次启动sql客户端即可执行成功。

作者 east

doris 4月 28,2023

flink cdc写入到doris报错：[ERROR] Could not execute SQL statement. Reason: org.apache.flink.table.api.ValidationException: Unsupported options found for ‘doris’.

在用flink的sql-client.sh或用Dinky执行flink cdc写入到doris时，报下面的错误：

[ERROR] Could not execute SQL statement. Reason:
org.apache.flink.table.api.ValidationException: Unsupported options found for 'doris'.

Unsupported options:

sink.batch.size

Supported options:

connector
doris.batch.size
doris.deserialize.arrow.async
doris.exec.mem.limit
doris.filter.query
doris.read.field
doris.request.connect.timeout.ms
doris.request.query.timeout.s
doris.request.read.timeout.ms
doris.request.retries
doris.request.retriesdoris.deserialize.queue.size
doris.request.tablet.size
fenodes
password
property-version
sink.batch.interval
sink.buffer-count
sink.buffer-size
sink.check-interval
sink.enable-2pc
sink.enable-delete
sink.label-prefix
sink.max-retries
source.use-old-api
table.identifier
username

刚开始以为是jar包问题，先后找了flink-doris-connector-1.14_2.12-1.1.1.jar和flink-doris-connector-1.14_2.12-1.1.0.jar放在flink的jar包里面，还是同样出现上面的。

让我不解的是，用代码来操作时，导入是同样的安装包，但没上面的问题。

后来问了New Bing，New Bing是这样回答的：

您好，根据您的错误信息，您可能需要修改您的Doris表的配置选项，以符合Flink Doris Connector的要求。您可以参考以下的建议：

您可能需要将sink.batch.size改为doris.batch.size，这是一个控制每次写入Doris的数据量的选项。
您可能需要检查您是否正确地设置了connector选项，这是一个指定连接器类型的选项，对于Doris表，应该设置为connector = ‘doris’。
您可能需要检查您是否正确地设置了table.identifier选项，这是一个指定Doris表名的选项，应该设置为table.identifier = ‘db_name.table_name’。

这时注意到问题在“sink.batch.size”,而不是之前以为“Unsupported options found for ‘doris’”是相关的jar包没找到。原来自己用的例子是旧版本例子：

DROP TABLE IF EXISTS doris_sink;
-- 创建Doris表
CREATE TABLE doris_sink (
  id INT PRIMARY KEY,
  name STRING,
  age INT,
  modified_time STRING
) WITH (
  'connector' = 'doris',
  'fenodes' = '10.0.80.54:8030',
  'table.identifier' = 'db_test.test_cdc',
  'username' = 'root',
  'password' = '',
  'sink.batch.size' = '1000'
);

需要修改为

DROP TABLE IF EXISTS doris_sink;
-- 创建Doris表
CREATE TABLE doris_sink (
  id INT PRIMARY KEY,
  name STRING,
  age INT,
  modified_time STRING
) WITH (
  'connector' = 'doris',
  'fenodes' = '10.0.80.54:8030',
  'table.identifier' = 'db_test.test_cdc',
  'username' = 'root',
  'password' = ''
);

作者 east

doris 4月 26,2023

配置dinky的集群配置管理时，提示下面的错误：Handler dispatch failed; nested exception is java.lang.NoClassDefFoundError: org/apache/flink/configuration/GlobalConfiguration

Dinky是一个一站式的实时计算平台，基于Apache Flink构建，支持流批一体和数据湖数据仓库统一1。你在配置Dinky的集群配置管理时，遇到了java.lang.NoClassDefFoundError: org/apache/flink/configuration/GlobalConfiguration的错误，

这是因为Dinky 需要具备自身的 Flink 环境，该 Flink 环境的实现需要用户自己在 Dinky 根目录下 plugins/flink${FLINK_VERSION} 文件夹并上传相关的 Flink 依赖，例如在/data/dinky/plugins/flink1.14/dinky/

上传flink安装包lib的依赖，例如flink-dist_2.12-1.14.4.jar、flink-table_2.12-1.14.4.jar等安装包。

如果又出现
ERROR: org.springframework.web.util.NestedServletException: Handler dispatch failed; nested exception is java.lang.NoClassDefFoundError: org/apache/hadoop/yarn/conf/YarnConfiguration 的错误。

需要将 flink-shade-hadoop 上传到到 plugins 文件目录下，使用 flink-shade-hadoop-3 地址如下：

https://mvnrepository.com/artifact/org.apache.flink/flink-shaded-hadoop-3-uber?repo=cloudera-repos

作者 east

Flink 4月 25,2023

运行flink的word count提示： could not find implicit value for evidence parameter of type org.apache.flink.api.common.typeinfo.TypeInformation

写了一个flink简单word count的例子：


import org.apache.flink.api.scala._

object FlinkWordCount {
  def main(args: Array[String]): Unit = {
    val env = ExecutionEnvironment.getExecutionEnvironment
    val words = List("hello", "world", "flink", "scala", "hello", "flink")

    // 为DataStream和DataSet的上下文提供隐式的类型信息
    implicit val typeInfo = createTypeInformation[WordCount]

    val wordDataSet = env.fromCollection(words)

    val wordCountDataSet = wordDataSet
      .map(word => WordCount(word, 1))
      .groupBy(0)
      .sum(1)

   
  }

  case class WordCount(word: String, count: Int)
}

提示could not find implicit value for evidence parameter of type org.apache.flink.api.common.typeinfo.TypeInformation

各种修改后还是报错，后来想到scala版本问题。
Flink 1.10.0以上版本需要Scala 2.12.x，如果使用Scala 2.11.x版本，就会报错。请确认一下你的Scala版本是否为2.12.x，如果不是请升级Scala版本到2.12.x后再运行代码。

作者 east

Flink 4月 24,2023

Flink CDC获取mysql 主从分库，分库分表的binlog

Flink CDC可以获取MySQL主从分库，分库分表的binlog，但是需要注意以下几点：

Flink CDC需要配置MySQL的binlog模式为row，以及开启GTID（全局事务标识符），以便正确地识别和处理binlog事件
Flink CDC需要配置MySQL的主从复制关系，以及指定主库或从库的地址，以便正确地连接和读取binlog数据
Flink CDC需要配置MySQL的分库分表规则，以及指定分库分表的键，以便正确地合并和转换binlog数据

一个可能的Flink CDC获取MySQL主从分库，分库分表的binlog的示例如下：

-- 创建MySQL主从分库，分库分表的表对象
CREATE TABLE mysql_user (
  id INT PRIMARY KEY NOT ENFORCED,
  name STRING,
  age INT
) WITH (
  'connector' = 'mysql-cdc',
  'hostname' = 'master-host', -- 主库地址
  'port' = '3306',
  'username' = 'root',
  'password' = '123456',
  'database-name' = 'test', -- 分库名
  'table-name' = 'user_${0-9}', -- 分表名
  'server-id' = '5400', -- 从库ID
  'scan.startup.mode' = 'initial', -- 初始扫描模式
  'scan.split.size' = '8096', -- 扫描块大小
  'debezium.snapshot.locking.mode' = 'none', -- 快照锁定模式
  'debezium.gtid.source.includes' = '', -- GTID包含范围
  'debezium.gtid.source.excludes' = '' -- GTID排除范围
);

-- 使用Flink SQL或DataStream API将MySQL的增量数据写入到其他目标，如Hive、Doris等
INSERT INTO hive_user SELECT * FROM mysql_user;

-- DataStream API
DataStream<Row> stream = tEnv.toAppendStream(tEnv.sqlQuery("SELECT * FROM mysql_user"), Row.class);
tEnv.createTemporaryView("stream", stream);
tEnv.executeSql("INSERT INTO doris_user SELECT * FROM stream");

作者 east

Flink 4月 24,2023

对比flink cdc和canal获取mysql binlog优缺点

Flink CDC和Canal都是用于获取MySQL binlog的工具，但是有以下几点优缺点对比：

Flink CDC是一个基于Flink的库，可以直接在Flink中使用，无需额外的组件或服务，而Canal是一个独立的服务，需要单独部署和运行，增加了系统的复杂度和成本
Flink CDC支持多种数据库的数据变化捕获，如MySQL、PostgreSQL、MongoDB等，而Canal只支持MySQL和MariaDB的数据变化捕获
Flink CDC支持Exactly-Once语义，保证数据的一致性和准确性，而Canal只支持At-Least-Once语义，可能会出现数据的重复或丢失
Flink CDC支持自动元数据更新，无需手动创建或维护表结构，而Canal需要手动创建或维护表结构，增加了开发和维护的工作量
Flink CDC支持Flink SQL和DataStream API的使用，方便进行数据处理和转换，而Canal只提供了Kafka、RocketMQ等消息队列的接口，需要额外的消费者进行数据处理和转换

作者 east

运维 4月 24,2023

能使用socket5协议，ssh海外vps服务器的软件

由于xshell有漏洞，公司不给使用，所以寻找一款替代软件。

除了 Xshell 之外，还有一些其他软件可以连接到国外 VPS 并设置 Socks5 代理。以下是几个比较常用的软件：

PuTTY：PuTTY 是一款常用的 SSH 和 Telnet 客户端软件，可以在 Windows 平台上运行，并且可以连接到远程 SSH 服务器。PuTTY 同时也支持设置 Socks5 代理。
Bitvise SSH Client：Bitvise SSH Client 也是一种常用的 SSH 客户端，可以用于在 Windows 上连接到远程 SSH 服务器。Bitvise SSH Client 提供了 Socks5 和 HTTP 代理配置选项，并且支持在 Windows 上设置全局 Socks5 代理。
WinSCP：WinSCP 是用于在 Windows 平台上使用 SSH 的免费开源工具，它还具有文件传输和文件管理的功能，支持 SCP, SFTP, FTPS, FTP 等协议。WinSCP 支持使用 Socks5 代理连接到 SFTP 服务器。

经过自己试验，觉得 Bitvise SSH Client 使用方便，用代理速度很快。之前在centos装ss5软件，访问起来龟速，用 Bitvise SSH Client 代理访问很快。

作者 east

doris 4月 23,2023

使用navicat来访问doris

访问Doris的UI

http:// dorisfe_ip:8030

由于doris是使用mysql协议，因此可以不用任何额外配置就可以使用navicat访问doris。可以使用MySql客户端来连接Doris FE，也可以使用mysql命令工具连接，因为他是Mysql协议，所以在使用上跟Mysql一样的。

只是doris默认的端口不是3306，而是9030。

也可以用mysql命令行来访问doris。

Mysql命令连接

mysql -uroot -P9030 -h127.0.0.1

注意：

这里使用的 root 用户是 doris 内置的默认用户，也是超级管理员用户
-P ：这里是我们连接 Doris 的查询端口，默认端口是 9030，对应的是fe.conf里的 query_port
-h ：这里是我们连接的 FE IP地址，如果你的客户端和 FE 安装在同一个节点可以使用127.0.0.1，这种也是 Doris 提供的如果你忘记 root 密码，可以通过这种方式不需要密码直接连接登录，进行对 root 密码进行重置

作者 east

Spark 4月 23,2023

运行spark的任务报下面的错误”org.apache.spark.memory.SparkOutOfMemoryError: Unable to acquire 65536 bytes of memory, got 0″，

这个错误表明Spark没有足够的内存来执行任务。可以试着通过以下方式修复：

增加可用内存。可以增加集群的内存或者减少任务的内存需求。
调整Spark的内存配置。可以调整Spark的内存配置，如executor的内存大小和driver的内存大小。
减少数据量。如果处理的数据量很大，可以考虑分批处理或者采用其他的数据处理方式。
使用内存优化技术。可以使用缓存、序列化等技术来优化内存使用。
调整GC策略。可以考虑采用更适合应用场景的GC策略。

作者 east

人工智能 4月 23,2023

尽管在过去几十年中人工智能领域取得了显着进步，但该技术一次又一次地未能兑现其承诺。人工智能驱动的自然语言处理器可以编写从新闻文章到小说的所有内容，但并非没有种族主义和歧视性语言。自动驾驶汽车可以在没有驾驶员输入的情况下导航，但不能消除愚蠢事故的风险。 AI 有个性化的在线广告，但时不时会严重错过上下文。
我们不能相信人工智能每次都能做出正确的决定。这并不意味着我们需要停止开发和部署下一代人工智能技术。相反，我们需要通过让人类主动过滤和验证数据集、维护决策制定控制或添加稍后将自动应用的指南来建立护栏。
智能系统根据输入复杂算法的数据做出决策，该算法用于创建和训练 AI 模型以解释数据。这使它能够自主“学习”和做出决策，并使其有别于仅在其创建者提供的程序上运行的工程系统。
但并非所有看似“智能”的系统都使用人工智能。许多是智能工程的例子，用于通过显式编程或让人类在机器人记录时执行动作来训练机器人。没有决策过程。相反，它是在高度结构化的环境中工作的自动化技术。
AI 对这个用例的承诺是使机器人能够在更加非结构化的环境中运行，真正从已经展示的示例中抽象出来。机器学习和深度学习技术使机器人能够在一次穿过仓库的行程中识别、拾取和运输一托盘罐头食品，然后对电视进行同样的操作，而不需要人类更新其程序来解决不同的问题。产品或位置。
构建任何智能系统的固有挑战在于，其决策能力仅与用于开发的数据集以及用于训练其 AI 模型的方法一样好。
没有 100% 完整、无偏见和准确的数据集。这使得创建本身没有潜在错误和偏见的 AI 模型变得极其困难。
考虑一下新的大型语言模型 (LLM) Facebook 及其母公司 Meta，最近向任何研究自然语言处理 (NLP) 应用程序的研究人员开放，例如智能手机和其他连接设备上支持语音的虚拟助手。该公司研究人员的一份报告警告称，新系统 OPT-175B“极有可能产生有毒语言并强化有害的刻板印象，即使是在提供相对无害的提示时也是如此，而对抗性提示是微不足道的。”
研究人员怀疑，人工智能模型是根据包括从社交媒体对话中获取的未经过滤的文本的数据进行训练的，无法识别它何时“决定”使用该数据来生成仇恨言论或种族主义语言。我完全赞扬 Meta 团队对他们的挑战持开放和透明的态度，并将该模型免费提供给希望帮助解决困扰所有 NLP 应用程序的偏见问题的研究人员。但这进一步证明，人工智能系统还不够成熟，也不够强大，无法独立于人类决策过程和干预而运作。
那么，如果我们不能信任人工智能，我们如何在降低风险的同时培育它的发展呢？通过采用三种实用方法中的一种（或多种）来解决问题。
一种方法是应用特定领域的数据过滤器，以防止不相关和不正确的数据在训练时到达人工智能模型。假设一家汽车制造商正在制造一辆配备四缸发动机的小型汽车，希望整合一个神经网络来检测发动机传感器和执行器的软故障。该公司可能拥有涵盖其所有车型的综合数据集，从紧凑型汽车到大型卡车和 SUV。但它应该过滤掉不相关的数据，以确保它不会使用特定于八缸卡车的数据来训练其四缸汽车的 AI 模型。
我们还可以建立过滤器，通过确认每个决定都会产生好的结果来保护世界免受错误的 AI 决定的影响，如果没有，则阻止它采取行动。这需要特定领域的检查触发器，以确保我们相信 AI 会做出某些决定并在预定义的参数范围内采取行动，而任何其他决定都需要“健全性检查”。
输出滤波器在自动驾驶汽车中建立安全运行速度范围，告诉 AI 模型，“我只允许你在这个安全范围内进行调整。如果您超出了该范围，并且决定将发动机转速降至 100 rpm 以下，则必须先咨询人类专家。”
开发人员将现有 AI 模型重新用于新应用程序的情况并不少见。这允许通过并行运行基于先前系统的专家模型来创建第三个护栏。主管将新系统的决策与以前系统的决策进行核对，并尝试确定出现任何差异的原因。
例如，一辆新车的自动驾驶系统在沿高速公路行驶时错误地从 55 mph 减速到 20 mph。假设以前的系统在相同情况下保持 55 mph 的速度。在这种情况下，主管稍后可以查看提供给两个系统的 AI 模型的训练数据，以确定差异的原因。但就在做决定的时候，我们可能想建议这种减速，而不是自动做出改变。
将控制 AI 的需求想象成类似于在孩子学习新事物（例如如何骑自行车）时需要照看他们。成年人作为护栏在旁边奔跑，帮助新骑手保持平衡并为他们提供做出明智决定所需的信息，例如何时踩刹车或让行人。
总而言之，开发人员有三种选择可以在生产过程中保持 AI 的正常运行：
但是，如果开发人员忘记仔细挑选数据和学习方法并为他们的 AI 模型建立可靠且可重复的生产流程，那么这些选项都将不起作用。最重要的是，开发人员需要意识到没有法律要求他们围绕 AI 构建新的应用程序或产品。
确保使用大量的自然智能，并问问自己，“AI 真的有必要吗？”智能工程和经典技术可能会提供更好、更清洁、更强大和更透明的解决方案。在某些情况下，最好完全避免人工智能。

作者 east