大数据开发 – 第20页

doris 4月 28,2023

flink cdc写入到doris报错：[ERROR] Could not execute SQL statement. Reason: org.apache.flink.table.api.ValidationException: Unsupported options found for ‘doris’.

在用flink的sql-client.sh或用Dinky执行flink cdc写入到doris时，报下面的错误：

[ERROR] Could not execute SQL statement. Reason:
org.apache.flink.table.api.ValidationException: Unsupported options found for 'doris'.

Unsupported options:

sink.batch.size

Supported options:

connector
doris.batch.size
doris.deserialize.arrow.async
doris.exec.mem.limit
doris.filter.query
doris.read.field
doris.request.connect.timeout.ms
doris.request.query.timeout.s
doris.request.read.timeout.ms
doris.request.retries
doris.request.retriesdoris.deserialize.queue.size
doris.request.tablet.size
fenodes
password
property-version
sink.batch.interval
sink.buffer-count
sink.buffer-size
sink.check-interval
sink.enable-2pc
sink.enable-delete
sink.label-prefix
sink.max-retries
source.use-old-api
table.identifier
username

刚开始以为是jar包问题，先后找了flink-doris-connector-1.14_2.12-1.1.1.jar和flink-doris-connector-1.14_2.12-1.1.0.jar放在flink的jar包里面，还是同样出现上面的。

让我不解的是，用代码来操作时，导入是同样的安装包，但没上面的问题。

后来问了New Bing，New Bing是这样回答的：

您好，根据您的错误信息，您可能需要修改您的Doris表的配置选项，以符合Flink Doris Connector的要求。您可以参考以下的建议：

您可能需要将sink.batch.size改为doris.batch.size，这是一个控制每次写入Doris的数据量的选项。
您可能需要检查您是否正确地设置了connector选项，这是一个指定连接器类型的选项，对于Doris表，应该设置为connector = ‘doris’。
您可能需要检查您是否正确地设置了table.identifier选项，这是一个指定Doris表名的选项，应该设置为table.identifier = ‘db_name.table_name’。

这时注意到问题在“sink.batch.size”,而不是之前以为“Unsupported options found for ‘doris’”是相关的jar包没找到。原来自己用的例子是旧版本例子：

DROP TABLE IF EXISTS doris_sink;
-- 创建Doris表
CREATE TABLE doris_sink (
  id INT PRIMARY KEY,
  name STRING,
  age INT,
  modified_time STRING
) WITH (
  'connector' = 'doris',
  'fenodes' = '10.0.80.54:8030',
  'table.identifier' = 'db_test.test_cdc',
  'username' = 'root',
  'password' = '',
  'sink.batch.size' = '1000'
);

需要修改为

DROP TABLE IF EXISTS doris_sink;
-- 创建Doris表
CREATE TABLE doris_sink (
  id INT PRIMARY KEY,
  name STRING,
  age INT,
  modified_time STRING
) WITH (
  'connector' = 'doris',
  'fenodes' = '10.0.80.54:8030',
  'table.identifier' = 'db_test.test_cdc',
  'username' = 'root',
  'password' = ''
);

作者 east

doris 4月 26,2023

配置dinky的集群配置管理时，提示下面的错误：Handler dispatch failed; nested exception is java.lang.NoClassDefFoundError: org/apache/flink/configuration/GlobalConfiguration

Dinky是一个一站式的实时计算平台，基于Apache Flink构建，支持流批一体和数据湖数据仓库统一1。你在配置Dinky的集群配置管理时，遇到了java.lang.NoClassDefFoundError: org/apache/flink/configuration/GlobalConfiguration的错误，

这是因为Dinky 需要具备自身的 Flink 环境，该 Flink 环境的实现需要用户自己在 Dinky 根目录下 plugins/flink${FLINK_VERSION} 文件夹并上传相关的 Flink 依赖，例如在/data/dinky/plugins/flink1.14/dinky/

上传flink安装包lib的依赖，例如flink-dist_2.12-1.14.4.jar、flink-table_2.12-1.14.4.jar等安装包。

如果又出现
ERROR: org.springframework.web.util.NestedServletException: Handler dispatch failed; nested exception is java.lang.NoClassDefFoundError: org/apache/hadoop/yarn/conf/YarnConfiguration 的错误。

需要将 flink-shade-hadoop 上传到到 plugins 文件目录下，使用 flink-shade-hadoop-3 地址如下：

https://mvnrepository.com/artifact/org.apache.flink/flink-shaded-hadoop-3-uber?repo=cloudera-repos

作者 east

Flink 4月 25,2023

运行flink的word count提示： could not find implicit value for evidence parameter of type org.apache.flink.api.common.typeinfo.TypeInformation

写了一个flink简单word count的例子：


import org.apache.flink.api.scala._

object FlinkWordCount {
  def main(args: Array[String]): Unit = {
    val env = ExecutionEnvironment.getExecutionEnvironment
    val words = List("hello", "world", "flink", "scala", "hello", "flink")

    // 为DataStream和DataSet的上下文提供隐式的类型信息
    implicit val typeInfo = createTypeInformation[WordCount]

    val wordDataSet = env.fromCollection(words)

    val wordCountDataSet = wordDataSet
      .map(word => WordCount(word, 1))
      .groupBy(0)
      .sum(1)

   
  }

  case class WordCount(word: String, count: Int)
}

提示could not find implicit value for evidence parameter of type org.apache.flink.api.common.typeinfo.TypeInformation

各种修改后还是报错，后来想到scala版本问题。
Flink 1.10.0以上版本需要Scala 2.12.x，如果使用Scala 2.11.x版本，就会报错。请确认一下你的Scala版本是否为2.12.x，如果不是请升级Scala版本到2.12.x后再运行代码。

作者 east

Flink 4月 24,2023

Flink CDC获取mysql 主从分库，分库分表的binlog

Flink CDC可以获取MySQL主从分库，分库分表的binlog，但是需要注意以下几点：

Flink CDC需要配置MySQL的binlog模式为row，以及开启GTID（全局事务标识符），以便正确地识别和处理binlog事件
Flink CDC需要配置MySQL的主从复制关系，以及指定主库或从库的地址，以便正确地连接和读取binlog数据
Flink CDC需要配置MySQL的分库分表规则，以及指定分库分表的键，以便正确地合并和转换binlog数据

一个可能的Flink CDC获取MySQL主从分库，分库分表的binlog的示例如下：

-- 创建MySQL主从分库，分库分表的表对象
CREATE TABLE mysql_user (
  id INT PRIMARY KEY NOT ENFORCED,
  name STRING,
  age INT
) WITH (
  'connector' = 'mysql-cdc',
  'hostname' = 'master-host', -- 主库地址
  'port' = '3306',
  'username' = 'root',
  'password' = '123456',
  'database-name' = 'test', -- 分库名
  'table-name' = 'user_${0-9}', -- 分表名
  'server-id' = '5400', -- 从库ID
  'scan.startup.mode' = 'initial', -- 初始扫描模式
  'scan.split.size' = '8096', -- 扫描块大小
  'debezium.snapshot.locking.mode' = 'none', -- 快照锁定模式
  'debezium.gtid.source.includes' = '', -- GTID包含范围
  'debezium.gtid.source.excludes' = '' -- GTID排除范围
);

-- 使用Flink SQL或DataStream API将MySQL的增量数据写入到其他目标，如Hive、Doris等
INSERT INTO hive_user SELECT * FROM mysql_user;

-- DataStream API
DataStream<Row> stream = tEnv.toAppendStream(tEnv.sqlQuery("SELECT * FROM mysql_user"), Row.class);
tEnv.createTemporaryView("stream", stream);
tEnv.executeSql("INSERT INTO doris_user SELECT * FROM stream");

作者 east

Flink 4月 24,2023

对比flink cdc和canal获取mysql binlog优缺点

Flink CDC和Canal都是用于获取MySQL binlog的工具，但是有以下几点优缺点对比：

Flink CDC是一个基于Flink的库，可以直接在Flink中使用，无需额外的组件或服务，而Canal是一个独立的服务，需要单独部署和运行，增加了系统的复杂度和成本
Flink CDC支持多种数据库的数据变化捕获，如MySQL、PostgreSQL、MongoDB等，而Canal只支持MySQL和MariaDB的数据变化捕获
Flink CDC支持Exactly-Once语义，保证数据的一致性和准确性，而Canal只支持At-Least-Once语义，可能会出现数据的重复或丢失
Flink CDC支持自动元数据更新，无需手动创建或维护表结构，而Canal需要手动创建或维护表结构，增加了开发和维护的工作量
Flink CDC支持Flink SQL和DataStream API的使用，方便进行数据处理和转换，而Canal只提供了Kafka、RocketMQ等消息队列的接口，需要额外的消费者进行数据处理和转换

作者 east

运维 4月 24,2023

能使用socket5协议，ssh海外vps服务器的软件

由于xshell有漏洞，公司不给使用，所以寻找一款替代软件。

除了 Xshell 之外，还有一些其他软件可以连接到国外 VPS 并设置 Socks5 代理。以下是几个比较常用的软件：

PuTTY：PuTTY 是一款常用的 SSH 和 Telnet 客户端软件，可以在 Windows 平台上运行，并且可以连接到远程 SSH 服务器。PuTTY 同时也支持设置 Socks5 代理。
Bitvise SSH Client：Bitvise SSH Client 也是一种常用的 SSH 客户端，可以用于在 Windows 上连接到远程 SSH 服务器。Bitvise SSH Client 提供了 Socks5 和 HTTP 代理配置选项，并且支持在 Windows 上设置全局 Socks5 代理。
WinSCP：WinSCP 是用于在 Windows 平台上使用 SSH 的免费开源工具，它还具有文件传输和文件管理的功能，支持 SCP, SFTP, FTPS, FTP 等协议。WinSCP 支持使用 Socks5 代理连接到 SFTP 服务器。

经过自己试验，觉得 Bitvise SSH Client 使用方便，用代理速度很快。之前在centos装ss5软件，访问起来龟速，用 Bitvise SSH Client 代理访问很快。

作者 east

doris 4月 23,2023

使用navicat来访问doris

访问Doris的UI

http:// dorisfe_ip:8030

由于doris是使用mysql协议，因此可以不用任何额外配置就可以使用navicat访问doris。可以使用MySql客户端来连接Doris FE，也可以使用mysql命令工具连接，因为他是Mysql协议，所以在使用上跟Mysql一样的。

只是doris默认的端口不是3306，而是9030。

也可以用mysql命令行来访问doris。

Mysql命令连接

mysql -uroot -P9030 -h127.0.0.1

注意：

这里使用的 root 用户是 doris 内置的默认用户，也是超级管理员用户
-P ：这里是我们连接 Doris 的查询端口，默认端口是 9030，对应的是fe.conf里的 query_port
-h ：这里是我们连接的 FE IP地址，如果你的客户端和 FE 安装在同一个节点可以使用127.0.0.1，这种也是 Doris 提供的如果你忘记 root 密码，可以通过这种方式不需要密码直接连接登录，进行对 root 密码进行重置

作者 east

Spark 4月 23,2023

运行spark的任务报下面的错误”org.apache.spark.memory.SparkOutOfMemoryError: Unable to acquire 65536 bytes of memory, got 0″，

这个错误表明Spark没有足够的内存来执行任务。可以试着通过以下方式修复：

增加可用内存。可以增加集群的内存或者减少任务的内存需求。
调整Spark的内存配置。可以调整Spark的内存配置，如executor的内存大小和driver的内存大小。
减少数据量。如果处理的数据量很大，可以考虑分批处理或者采用其他的数据处理方式。
使用内存优化技术。可以使用缓存、序列化等技术来优化内存使用。
调整GC策略。可以考虑采用更适合应用场景的GC策略。

作者 east

doris 4月 19,2023

免费可源可商用的BI工具对比(支持Doris 数据库)

目前市面上有很多开源的 BI 工具可供选择，以下是几个免费、开源且可以商用的 BI 工具，并且支持和 Doris 数据库结合使用：

Superset：由 Airbnb 发起的开源 BI 工具，带有可视化和交互式仪表盘功能。Superset 支持多种数据源，其中包括 Doris 数据库。
Metabase：一个简单易用的 BI 工具，支持数据可视化和 SQL 查询。Metabase 支持多种数据库，包括 Doris 数据库。
Redash：一个开源的数据查询和可视化工具，支持多种数据源，包括 Doris 数据库。

这些工具都支持多种数据源，包括 Doris 数据库，并提供了直观的查询和可视化界面，可以帮助分析师更好地理解和分析数据。

下面是 Datart 和上述三种开源 BI 工具的优缺点对比：

Datart：Datart 是一个功能强大、易于使用的商业智能工具，可以满足复杂的数据分析需求。Datart 支持多种数据源，包括 Doris 数据库，并提供了数据清洗、数据可视化、数据建模等多种功能，可以帮助分析师更好的理解和分析数据。然而，由于 Datart 是商业软件，其使用和技术支持可能需要一定的成本投入。
Superset：Superset 是一个由 Airbnb 发起的开源 BI 工具，带有可视化和交互式仪表盘功能。Superset 使用简便，具有良好的报表和图表设计能力，并支持多种数据源，包括 Doris 数据库。但是相对于 Datart，Superset 的数据建模和数据处理能力相对较弱。
Metabase：Metabase 是一个简单易用的开源 BI 工具，具有良好的可视化和查询功能，并支持多种数据源，包括 Doris 数据库。然而与 Datart 相比，Metabase 的数据处理和数据建模能力相对较弱。
Redash：Redash 是一个开源的数据查询和可视化工具，支持多种数据源，包括 Doris 数据库。Redash 方便易用，具有良好的查询和可视化功能，但是相对于 Datart，其扩展性和定制化能力相对较弱。

总的来说，选择适合自己的 BI 工具需要综合考虑多方面因素，包括数据规模、数据处理复杂度、报表需求、用户人数等。商业 BI 工具通常具有更强大的功能和更好的技术支持，但需要投入一定的成本。同时，开源 BI 工具虽然使用简单，但其扩展能力和个性化定制能力相对较差。

作者 east

大数据开发 4月 18,2023

分析软件提供商 Startburst 周二表示，它正在为 Startburst Galaxy 添加数据可发现性功能，Startburst Galaxy 是一项托管的 Trino SQL 查询引擎服务。
Trino，前身为 Presto SQL，是一种用于大数据的开源分布式 SQL 查询引擎，允许用户在单个查询中查询来自多个数据源（包括 NoSQL 数据库）的数据。
该公司表示，这些更新是在 AWS re:Invent 2022 上宣布的，将帮助企业简化传统的提取、转换、加载 (ETL) 流程来管理数据产品，从而加速数据查询、访问和分析。
通过 Starburst Galaxy 作为托管服务提供，这些新的可发现性功能正在解决与数据湖变成数据沼泽相关的挑战——杂乱无章的数据杂乱无章，这对可访问性和利用数据获得可操作见解的能力提出了重大挑战。
新功能旨在将发现时间从几小时缩短到几秒，并为自助服务数据产品管理奠定基础，无论技术专长如何。
物联网设备的激增一直是全球企业面临的杂乱无章的数据问题的重要贡献者。据 IDC 称，到 2025 年，预计将有 557 亿台联网的物联网设备，产生近 80 兆字节的数据（相当于十亿太字节或万亿千兆字节）。
Starburst 董事长兼首席执行官 Justin Borgman 在一份新闻稿中表示：“Starburst Galaxy 使组织能够更有效地发现正确的数据集，有助于降低成本，同时从数据中获得更多价值。”
该公司期望这些新功能将帮助企业创建自助服务数据产品，包括数据发现、模式发现和精细访问控制。
顾名思义，数据发现功能有助于找到所需的数据集及其位置。该公司表示，该功能使元数据能够自动填充查询历史和上下文，从而提供有关数据使用方式的关键见解。
另一方面，模式发现旨在消除 ETL 过程中的“转换”方面。 Starburst 表示，该功能将使企业能够发现跨来源的现有数据集以及新数据集，而不管它们位于何处。
该公司补充说，这意味着加载数据的数据工程师不需要事先考虑模式。
Starburst 说，新的粒度访问控制 (GAC) 功能旨在使企业数据管理员能够查看和了解谁有权访问哪些数据以及如何使用这些数据，并补充说这允许管理员通过策略即代码更改权限确保持续部署管道中的安全性和风险降低。
Starburst Galaxy 目前可通过各种定价计划在 AWS、Microsoft Azure 和 GCP 上使用。
Starburst Galaxy 的更新是在公司将数据产品添加到其企业数据和分析平台（称为 Starburst Enterprise）后的一年内进行的。 9 月，该公司向该平台添加了新功能以简化跨云分析。
在 re:Invent 2022 上，该公司还宣布支持通过 Starburst Enterprise 为 AWS Lake Formation 实施数据网格架构，这是一项创建数据湖的服务。
数据网格概念包含异构分布式数据的分散管理和治理。数据网格架构的目标是允许管理和分析数据，无论数据位于何处——本地、公共云或多云环境，或者 SQL 或 NoSQL 数据库。
该公司表示，作为支持的一部分，Starburst 将帮助其与 AWS 的联合客户实施数据网格的技术方面，并补充说这将帮助企业从混合部署中获得最大价值。

作者 east

doris 4月 18,2023

doris上面的集群如何读取CDH6.3.2上面hive存储数据

使用Doris的HDFS插件特性，实现将CDH上Hive的离线计算数据同步到Doris的数仓中，具体步骤如下：

安装Doris HDFS插件

在Doris的所有节点上安装HDFS插件，步骤如下：

$ cd doris-<version>/bin
$ ./hadoop_deploy_tool.sh -s /opt/cloudera/parcels/CDH

其中，<version>是Doris的版本号，/opt/cloudera/parcels/CDH是您CDH集群安装的路径，如果与该路径不同，则需要修改为您的路径。

配置HDFS插件参数

打开Doris的配置文件doris_fe.conf，设置以下参数：

# hdfs config
hdfs_read_strategy = "distributed"
hdfs_cluster.default_fs = "hdfs://<NameNode-IP>:8020"
hdfs_cluster.list = "default"
hdfs_cluster.default_root_path = "/user/hive/warehouse"

其中，<NameNode-IP>是您CDH集群上的NameNode节点IP，后面的路径/user/hive/warehouse是Hive离线计算的数据存储路径，该路径中应包含您需要同步的所有数据。

创建Doris的表并导入数据

LOAD LABEL my_label
(
    [column_name data_type [(length)] [column_attribute], ...]
)
FROM "hdfs://<NameNode-IP>:8020/user/hive/warehouse/<database_name>.db/<table_name>" 
WITH    (
        seperator='\u0001', 
        row_delimiter='\n', 
        null_string='NULL', 
        cols_charset='UTF8'
        );

根据您的业务需求，在Doris中创建相应的表，然后使用Doris的LOAD语句将数据从Hive中导入到Doris的表中，示例语句：

其中，<NameNode-IP>是您CDH集群上的NameNode节点IP，<database_name>是Hive数据库名称，<table_name>是您需要同步的数据表名称。

最后，执行上述LOAD语句即可实现将CDH上Hive的离线计算数据同步到Doris的数仓中，供运营分析和数据科学家们使用。

作者 east

bug清单, 大数据开发 4月 17,2023

CDH一个节点故障影响namenode启动

CDH某个节点磁盘故障，导致上面的角色都有问题。启动namenode时失败，日志报下面错误：

Error: recoverUnfinalizedSegments failed for required journal (JournalAndStream(mgr=QJM to [10.0.20.102:8485, 10.0.20.103:8485, 10.0.20.104:8485], stream=null))
java.io.IOException: Timed out waiting 120000ms for a quorum of nodes to respond.
at org.apache.hadoop.hdfs.qjournal.client.AsyncLoggerSet.waitForWriteQuorum(AsyncLoggerSet.java:137)
at org.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager.createNewUniqueEpoch(QuorumJournalManager.java:197)
at org.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager.recoverUnfinalizedSegments(QuorumJournalManager.java:436)
at org.apache.hadoop.hdfs.server.namenode.JournalSet6.apply(JournalSet.java:616) at org.apache.hadoop.hdfs.server.namenode.JournalSet.mapJournalsAndReportErrors(JournalSet.java:385) at org.apache.hadoop.hdfs.server.namenode.JournalSet.recoverUnfinalizedSegments(JournalSet.java:613) at org.apache.hadoop.hdfs.server.namenode.FSEditLog.recoverUnclosedStreams(FSEditLog.java:1603) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startActiveServices(FSNamesystem.java:1210) at org.apache.hadoop.hdfs.server.namenode.NameNode6.apply(JournalSet.java:616)atorg.apache.hadoop.hdfs.server.namenode.JournalSet.mapJournalsAndReportErrors(JournalSet.java:385)atorg.apache.hadoop.hdfs.server.namenode.JournalSet.recoverUnfinalizedSegments(JournalSet.java:613)atorg.apache.hadoop.hdfs.server.namenode.FSEditLog.recoverUnclosedStreams(FSEditLog.java:1603)atorg.apache.hadoop.hdfs.server.namenode.FSNamesystem.startActiveServices(FSNamesystem.java:1210)atorg.apache.hadoop.hdfs.server.namenode.NameNodeNameNodeHAContext.startActiveServices(NameNode.java:1898)
at org.apache.hadoop.hdfs.server.namenode.ha.ActiveState.enterState(ActiveState.java:61)
at org.apache.hadoop.hdfs.server.namenode.ha.HAState.setStateInternal(HAState.java:64)
at org.apache.hadoop.hdfs.server.namenode.ha.StandbyState.setState(StandbyState.java:49)
at org.apache.hadoop.hdfs.server.namenode.NameNode.transitionToActive(NameNode.java:1756)
at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.transitionToActive(NameNodeRpcServer.java:1700)
at org.apache.hadoop.ha.protocolPB.HAServiceProtocolServerSideTranslatorPB.transitionToActive(HAServiceProtocolServerSideTranslatorPB.java:107)
at org.apache.hadoop.ha.proto.HAServiceProtocolProtosHAServiceProtocolServiceHAServiceProtocolService2.callBlockingMethod(HAServiceProtocolProtos.java:4460)
at org.apache.hadoop.ipc.ProtobufRpcEngineServerServerProtoBufRpcInvoker.call(ProtobufRpcEngine.java:523)
at org.apache.hadoop.ipc.RPCServer.call(RPC.java:991) at org.apache.hadoop.ipc.ServerServer.call(RPC.java:991)atorg.apache.hadoop.ipc.ServerRpcCall.run(Server.java:869)
at org.apache.hadoop.ipc.ServerRpcCall.run(Server.java:815) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:422) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1875) at org.apache.hadoop.ipc.ServerRpcCall.run(Server.java:815)atjava.security.AccessController.doPrivileged(NativeMethod)atjavax.security.auth.Subject.doAs(Subject.java:422)atorg.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1875)atorg.apache.hadoop.ipc.ServerHandler.run(Server.java:2675)

CDH重新启动namenode时报错，错误信息为：Error: recoverUnfinalizedSegments failed for required journal (JournalAndStream(mgr=QJM to [10.0.20.102:8485, 10.0.20.103:8485, 10.0.20.104:8485], stream=null))，而且提示等待120秒超时，无法响应。这与Hadoop分布式协议不一致有关，可能由于某个节点的欠缺或故障造成了段错误。建议检查所有节点的网络连接是否正常、端口是否打开，以及检查journal节点的状态。同时也需要检查在这个问题出现之前是否已经存在其他问题。如果仍然无法解决问题，建议向CDH官方技术支持组寻求帮助。

作者 east

分类归档大数据开发