gitweixin
  • 首页
  • 小程序代码
    • 资讯读书
    • 工具类
    • O2O
    • 地图定位
    • 社交
    • 行业软件
    • 电商类
    • 互联网类
    • 企业类
    • UI控件
  • 大数据开发
    • Hadoop
    • Spark
    • Hbase
    • Elasticsearch
    • Kafka
    • Flink
    • 数据仓库
    • 数据挖掘
    • flume
    • Kafka
    • Hive
    • shardingsphere
    • solr
  • 开发博客
    • Android
    • php
    • python
    • 运维
    • 技术架构
    • 数据库
  • 程序员网赚
  • bug清单
  • 量化投资
  • 在线查询工具
    • 去行号
    • 在线时间戳转换工具
    • 免费图片批量修改尺寸在线工具
    • SVG转JPG在线工具

分类归档doris

精品微信小程序开发门户,代码全部亲测可用

  • 首页   /  大数据开发
  • 分类归档: "doris"
  • ( 页面3 )
doris, Flink 5月 11,2023

同步 MySQL 数据到 Doris 的常用方案

  1. 使用Flink CDC

优点:

  • 实时同步,可支持增量同步和全量同步
  • 可以按需调整并发度和流水线等参数,可弹性伸缩
  • 高可靠性和灵活性,能够处理多种场景下的同步需求

缺点:

  • 实现和部署比较复杂,需要掌握 Flink 的相关知识
  • 对系统资源和性能要求较高,需要有一定的硬件配置
  • 需要进行一定的性能测试和优化,才能支持实际业务量

2.使用Doris MySQL Proxy

优点:

  • 部署和使用比较简单,不需要修改 MySQL 应用程序
  • 对 MySQL 应用程序和数据库系统无侵入
  • 可以保证数据的一致性和可靠性

缺点:

  • 过程中需要对数据库 Proxy 进行自定义集成
  • 不支持多库多表的同步,只能同步一个 MySQL 数据库
  • 可能存在数据丢失或者漏读的问题

3.使用Canal

优点:

  • 存在简单,部署方便
  • 支持 MySQL 的多种版本
  • 可用于实时同步 MySQL 数据
  • 对系统资源和性能需求较低,适合小数据量同步

缺点:

  • 不支持多库多表同步
  • 可能存在数据丢失或者漏读的问题
  • 官方不再维护
作者 east
doris 5月 11,2023

mysql text、longtext类型转化为doris

MySQL有四种类型的文本数据:TINYTEXT,TEXT,MEDIUMTEXT和LONGTEXT。它们分别可以存储最多255,65,535,16,777,215和4,294,967,295个字符。Doris有一种类似的类型叫VARCHAR,它可以存储最多64K字节的数据。但是,Doris不支持BLOB或TEXT类型。

要将MySQL的text或longtext转换为Doris的类型,你可以使用适当长度的VARCHAR。例如,如果你的MySQL text列有小于64K个字符,你可以在Doris中使用VARCHAR(65535)。如果你的MySQL longtext列有超过64K个字符但小于4G个字符,你可以在Doris中使用VARCHAR(4294967295)。但是,请注意,使用这样大的VARCHAR列可能会影响Doris的性能和内存使用。

另外,你也可以考虑使用不同的存储系统来存储长字符串,比如NoSQL数据库,并且只在Doris中存储一个引用或一个ID。

作者 east
doris 4月 28,2023

flink cdc写入到doris报错:[ERROR] Could not execute SQL statement. Reason: org.apache.flink.table.api.ValidationException: Unsupported options found for ‘doris’.

在用flink的sql-client.sh或用Dinky执行flink cdc写入到doris时,报下面的错误:

[ERROR] Could not execute SQL statement. Reason:
org.apache.flink.table.api.ValidationException: Unsupported options found for 'doris'.

Unsupported options:

sink.batch.size

Supported options:

connector
doris.batch.size
doris.deserialize.arrow.async
doris.exec.mem.limit
doris.filter.query
doris.read.field
doris.request.connect.timeout.ms
doris.request.query.timeout.s
doris.request.read.timeout.ms
doris.request.retries
doris.request.retriesdoris.deserialize.queue.size
doris.request.tablet.size
fenodes
password
property-version
sink.batch.interval
sink.buffer-count
sink.buffer-size
sink.check-interval
sink.enable-2pc
sink.enable-delete
sink.label-prefix
sink.max-retries
source.use-old-api
table.identifier
username

刚开始以为是jar包问题,先后找了flink-doris-connector-1.14_2.12-1.1.1.jar和flink-doris-connector-1.14_2.12-1.1.0.jar放在flink的jar包里面,还是同样出现上面的。

让我不解的是,用代码来操作时,导入是同样的安装包,但没上面的问题。

后来问了New Bing,New Bing是这样回答的:

您好,根据您的错误信息,您可能需要修改您的Doris表的配置选项,以符合Flink Doris Connector的要求。您可以参考以下的建议:

  • 您可能需要将sink.batch.size改为doris.batch.size,这是一个控制每次写入Doris的数据量的选项。
  • 您可能需要检查您是否正确地设置了connector选项,这是一个指定连接器类型的选项,对于Doris表,应该设置为connector = ‘doris’。
  • 您可能需要检查您是否正确地设置了table.identifier选项,这是一个指定Doris表名的选项,应该设置为table.identifier = ‘db_name.table_name’。

这时注意到问题在“sink.batch.size”,而不是之前以为“Unsupported options found for ‘doris’”是相关的jar包没找到。原来自己用的例子是旧版本例子:

DROP TABLE IF EXISTS doris_sink;
-- 创建Doris表
CREATE TABLE doris_sink (
  id INT PRIMARY KEY,
  name STRING,
  age INT,
  modified_time STRING
) WITH (
  'connector' = 'doris',
  'fenodes' = '10.0.80.54:8030',
  'table.identifier' = 'db_test.test_cdc',
  'username' = 'root',
  'password' = '',
  'sink.batch.size' = '1000'
);

需要修改为

DROP TABLE IF EXISTS doris_sink;
-- 创建Doris表
CREATE TABLE doris_sink (
  id INT PRIMARY KEY,
  name STRING,
  age INT,
  modified_time STRING
) WITH (
  'connector' = 'doris',
  'fenodes' = '10.0.80.54:8030',
  'table.identifier' = 'db_test.test_cdc',
  'username' = 'root',
  'password' = ''
);
作者 east
doris 4月 26,2023

配置dinky的集群配置管理时,提示下面的错误:Handler dispatch failed; nested exception is java.lang.NoClassDefFoundError: org/apache/flink/configuration/GlobalConfiguration

Dinky是一个一站式的实时计算平台,基于Apache Flink构建,支持流批一体和数据湖数据仓库统一1。你在配置Dinky的集群配置管理时,遇到了java.lang.NoClassDefFoundError: org/apache/flink/configuration/GlobalConfiguration的错误,

这是因为Dinky 需要具备自身的 Flink 环境,该 Flink 环境的实现需要用户自己在 Dinky 根目录下 plugins/flink${FLINK_VERSION} 文件夹并上传相关的 Flink 依赖,例如在/data/dinky/plugins/flink1.14/dinky/

上传flink安装包lib的依赖,例如flink-dist_2.12-1.14.4.jar、flink-table_2.12-1.14.4.jar等安装包。

如果又出现
ERROR: org.springframework.web.util.NestedServletException: Handler dispatch failed; nested exception is java.lang.NoClassDefFoundError: org/apache/hadoop/yarn/conf/YarnConfiguration 的错误。

需要将 flink-shade-hadoop 上传到到 plugins 文件目录下,使用 flink-shade-hadoop-3 地址如下:

https://mvnrepository.com/artifact/org.apache.flink/flink-shaded-hadoop-3-uber?repo=cloudera-repos

作者 east
doris 4月 23,2023

使用navicat来访问doris

访问Doris的UI

http:// dorisfe_ip:8030

由于doris是使用mysql协议,因此可以不用任何额外配置就可以使用navicat访问doris。 可以使用MySql客户端来连接Doris FE,也可以使用mysql命令工具连接,因为他是Mysql协议,所以在使用上跟Mysql一样的。

只是doris默认的端口不是3306,而是9030。

也可以用mysql命令行来访问doris。

  • Mysql命令连接
mysql -uroot -P9030 -h127.0.0.1

注意:

  1. 这里使用的 root 用户是 doris 内置的默认用户,也是超级管理员用户
  2. -P :这里是我们连接 Doris 的查询端口,默认端口是 9030,对应的是fe.conf里的 query_port
  3. -h : 这里是我们连接的 FE IP地址,如果你的客户端和 FE 安装在同一个节点可以使用127.0.0.1,这种也是 Doris 提供的如果你忘记 root 密码,可以通过这种方式不需要密码直接连接登录,进行对 root 密码进行重置

作者 east
doris 4月 19,2023

免费可源可商用的BI工具对比(支持Doris 数据库)

目前市面上有很多开源的 BI 工具可供选择,以下是几个免费、开源且可以商用的 BI 工具,并且支持和 Doris 数据库结合使用:

  1. Superset:由 Airbnb 发起的开源 BI 工具,带有可视化和交互式仪表盘功能。Superset 支持多种数据源,其中包括 Doris 数据库。
  2. Metabase:一个简单易用的 BI 工具,支持数据可视化和 SQL 查询。Metabase 支持多种数据库,包括 Doris 数据库。
  3. Redash:一个开源的数据查询和可视化工具,支持多种数据源,包括 Doris 数据库。

这些工具都支持多种数据源,包括 Doris 数据库,并提供了直观的查询和可视化界面,可以帮助分析师更好地理解和分析数据。

下面是 Datart 和上述三种开源 BI 工具的优缺点对比:

  1. Datart:Datart 是一个功能强大、易于使用的商业智能工具,可以满足复杂的数据分析需求。Datart 支持多种数据源,包括 Doris 数据库,并提供了数据清洗、数据可视化、数据建模等多种功能,可以帮助分析师更好的理解和分析数据。然而,由于 Datart 是商业软件,其使用和技术支持可能需要一定的成本投入。
  2. Superset:Superset 是一个由 Airbnb 发起的开源 BI 工具,带有可视化和交互式仪表盘功能。Superset 使用简便,具有良好的报表和图表设计能力,并支持多种数据源,包括 Doris 数据库。但是相对于 Datart,Superset 的数据建模和数据处理能力相对较弱。
  3. Metabase:Metabase 是一个简单易用的开源 BI 工具,具有良好的可视化和查询功能,并支持多种数据源,包括 Doris 数据库。然而与 Datart 相比,Metabase 的数据处理和数据建模能力相对较弱。
  4. Redash:Redash 是一个开源的数据查询和可视化工具,支持多种数据源,包括 Doris 数据库。Redash 方便易用,具有良好的查询和可视化功能,但是相对于 Datart,其扩展性和定制化能力相对较弱。

总的来说,选择适合自己的 BI 工具需要综合考虑多方面因素,包括数据规模、数据处理复杂度、报表需求、用户人数等。商业 BI 工具通常具有更强大的功能和更好的技术支持,但需要投入一定的成本。同时,开源 BI 工具虽然使用简单,但其扩展能力和个性化定制能力相对较差。

作者 east
doris 4月 18,2023

doris上面的集群如何读取CDH6.3.2上面hive存储数据

使用Doris的HDFS插件特性,实现将CDH上Hive的离线计算数据同步到Doris的数仓中,具体步骤如下:

  • 安装Doris HDFS插件

在Doris的所有节点上安装HDFS插件,步骤如下:

$ cd doris-<version>/bin
$ ./hadoop_deploy_tool.sh -s /opt/cloudera/parcels/CDH

其中,<version>是Doris的版本号,/opt/cloudera/parcels/CDH是您CDH集群安装的路径,如果与该路径不同,则需要修改为您的路径。

  • 配置HDFS插件参数

打开Doris的配置文件doris_fe.conf,设置以下参数:

# hdfs config
hdfs_read_strategy = "distributed"
hdfs_cluster.default_fs = "hdfs://<NameNode-IP>:8020"
hdfs_cluster.list = "default"
hdfs_cluster.default_root_path = "/user/hive/warehouse"

其中,<NameNode-IP>是您CDH集群上的NameNode节点IP,后面的路径/user/hive/warehouse是Hive离线计算的数据存储路径,该路径中应包含您需要同步的所有数据。

  • 创建Doris的表并导入数据
LOAD LABEL my_label
(
    [column_name data_type [(length)] [column_attribute], ...]
)
FROM "hdfs://<NameNode-IP>:8020/user/hive/warehouse/<database_name>.db/<table_name>" 
WITH    (
        seperator='\u0001', 
        row_delimiter='\n', 
        null_string='NULL', 
        cols_charset='UTF8'
        );

根据您的业务需求,在Doris中创建相应的表,然后使用Doris的LOAD语句将数据从Hive中导入到Doris的表中,示例语句:

其中,<NameNode-IP>是您CDH集群上的NameNode节点IP,<database_name>是Hive数据库名称,<table_name>是您需要同步的数据表名称。

最后,执行上述LOAD语句即可实现将CDH上Hive的离线计算数据同步到Doris的数仓中,供运营分析和数据科学家们使用。

作者 east

上一 1 2 3

关注公众号“大模型全栈程序员”回复“小程序”获取1000个小程序打包源码。回复”chatgpt”获取免注册可用chatgpt。回复“大数据”获取多本大数据电子书

标签

AIGC AI创作 bert chatgpt github GPT-3 gpt3 GTP-3 hive mysql O2O tensorflow UI控件 不含后台 交流 共享经济 出行 图像 地图定位 外卖 多媒体 娱乐 小程序 布局 带后台完整项目 开源项目 搜索 支付 效率 教育 日历 机器学习 深度学习 物流 用户系统 电商 画图 画布(canvas) 社交 签到 联网 读书 资讯 阅读 预订

官方QQ群

小程序开发群:74052405

大数据开发群: 952493060

近期文章

  • 如何在Chrome中设置启动时自动打开多个默认网页
  • spark内存溢出怎样区分是软件还是代码原因
  • MQTT完全解析和实践
  • 解决运行Selenium报错:self.driver = webdriver.Chrome(service=service) TypeError: __init__() got an unexpected keyword argument ‘service’
  • python 3.6使用mysql-connector-python报错:SyntaxError: future feature annotations is not defined
  • 详解Python当中的pip常用命令
  • AUTOSAR如何在多个供应商交付的配置中避免ARXML不兼容?
  • C++thread pool(线程池)设计应关注哪些扩展性问题?
  • 各类MCAL(Microcontroller Abstraction Layer)如何与AUTOSAR工具链解耦?
  • 如何设计AUTOSAR中的“域控制器”以支持未来扩展?

文章归档

  • 2025年7月
  • 2025年6月
  • 2025年5月
  • 2025年4月
  • 2025年3月
  • 2025年2月
  • 2025年1月
  • 2024年12月
  • 2024年11月
  • 2024年10月
  • 2024年9月
  • 2024年8月
  • 2024年7月
  • 2024年6月
  • 2024年5月
  • 2024年4月
  • 2024年3月
  • 2023年11月
  • 2023年10月
  • 2023年9月
  • 2023年8月
  • 2023年7月
  • 2023年6月
  • 2023年5月
  • 2023年4月
  • 2023年3月
  • 2023年1月
  • 2022年11月
  • 2022年10月
  • 2022年9月
  • 2022年8月
  • 2022年7月
  • 2022年6月
  • 2022年5月
  • 2022年4月
  • 2022年3月
  • 2022年2月
  • 2022年1月
  • 2021年12月
  • 2021年11月
  • 2021年9月
  • 2021年8月
  • 2021年7月
  • 2021年6月
  • 2021年5月
  • 2021年4月
  • 2021年3月
  • 2021年2月
  • 2021年1月
  • 2020年12月
  • 2020年11月
  • 2020年10月
  • 2020年9月
  • 2020年8月
  • 2020年7月
  • 2020年6月
  • 2020年5月
  • 2020年4月
  • 2020年3月
  • 2020年2月
  • 2020年1月
  • 2019年7月
  • 2019年6月
  • 2019年5月
  • 2019年4月
  • 2019年3月
  • 2019年2月
  • 2019年1月
  • 2018年12月
  • 2018年7月
  • 2018年6月

分类目录

  • Android (73)
  • bug清单 (79)
  • C++ (34)
  • Fuchsia (15)
  • php (4)
  • python (45)
  • sklearn (1)
  • 云计算 (20)
  • 人工智能 (61)
    • chatgpt (21)
      • 提示词 (6)
    • Keras (1)
    • Tensorflow (3)
    • 大模型 (1)
    • 智能体 (4)
    • 深度学习 (14)
  • 储能 (44)
  • 前端 (5)
  • 大数据开发 (491)
    • CDH (6)
    • datax (4)
    • doris (31)
    • Elasticsearch (15)
    • Flink (78)
    • flume (7)
    • Hadoop (19)
    • Hbase (23)
    • Hive (41)
    • Impala (2)
    • Java (71)
    • Kafka (10)
    • neo4j (5)
    • shardingsphere (6)
    • solr (5)
    • Spark (100)
    • spring (11)
    • 数据仓库 (9)
    • 数据挖掘 (7)
    • 海豚调度器 (10)
    • 运维 (34)
      • Docker (3)
  • 小游戏代码 (1)
  • 小程序代码 (139)
    • O2O (16)
    • UI控件 (5)
    • 互联网类 (23)
    • 企业类 (6)
    • 地图定位 (9)
    • 多媒体 (6)
    • 工具类 (25)
    • 电商类 (22)
    • 社交 (7)
    • 行业软件 (7)
    • 资讯读书 (11)
  • 嵌入式 (71)
    • autosar (63)
    • RTOS (1)
    • 总线 (1)
  • 开发博客 (16)
    • Harmony (9)
  • 技术架构 (6)
  • 数据库 (32)
    • mongodb (1)
    • mysql (13)
    • pgsql (2)
    • redis (1)
    • tdengine (4)
  • 未分类 (7)
  • 程序员网赚 (20)
    • 广告联盟 (3)
    • 私域流量 (5)
    • 自媒体 (5)
  • 量化投资 (4)
  • 面试 (14)

功能

  • 登录
  • 文章RSS
  • 评论RSS
  • WordPress.org

All Rights Reserved by Gitweixin.本站收集网友上传代码, 如有侵犯版权,请发邮件联系yiyuyos@gmail.com删除.