gitweixin
  • 首页
  • 小程序代码
    • 资讯读书
    • 工具类
    • O2O
    • 地图定位
    • 社交
    • 行业软件
    • 电商类
    • 互联网类
    • 企业类
    • UI控件
  • 大数据开发
    • Hadoop
    • Spark
    • Hbase
    • Elasticsearch
    • Kafka
    • Flink
    • 数据仓库
    • 数据挖掘
    • flume
    • Kafka
    • Hive
    • shardingsphere
    • solr
  • 开发博客
    • Android
    • php
    • python
    • 运维
    • 技术架构
    • 数据库
  • 程序员网赚
  • bug清单
  • 量化投资
  • 在线查询工具
    • 去行号
    • 在线时间戳转换工具
    • 免费图片批量修改尺寸在线工具
    • SVG转JPG在线工具

分类归档大数据开发

精品微信小程序开发门户,代码全部亲测可用

  • 首页   /  
  • 分类归档: "大数据开发"
  • ( 页面18 )
doris 5月 11,2023

mysql text、longtext类型转化为doris

MySQL有四种类型的文本数据:TINYTEXT,TEXT,MEDIUMTEXT和LONGTEXT。它们分别可以存储最多255,65,535,16,777,215和4,294,967,295个字符。Doris有一种类似的类型叫VARCHAR,它可以存储最多64K字节的数据。但是,Doris不支持BLOB或TEXT类型。

要将MySQL的text或longtext转换为Doris的类型,你可以使用适当长度的VARCHAR。例如,如果你的MySQL text列有小于64K个字符,你可以在Doris中使用VARCHAR(65535)。如果你的MySQL longtext列有超过64K个字符但小于4G个字符,你可以在Doris中使用VARCHAR(4294967295)。但是,请注意,使用这样大的VARCHAR列可能会影响Doris的性能和内存使用。

另外,你也可以考虑使用不同的存储系统来存储长字符串,比如NoSQL数据库,并且只在Doris中存储一个引用或一个ID。

作者 east
Spark 5月 10,2023

今天如何成功地将大数据与 Spark 结合使用

您可能很难找到从未听说过 Apache Spark 或从未将大数据与 Spark 结合使用的大数据从业者。我们甚至可以说这几乎是不可能的——这是有充分理由的。 Spark 众所周知,因为它快速、可靠且功能强大。让我们深入探讨其中的原因,回答有关 Spark 计算的一些常见问题,如何轻松使用它来取得成功等等。

Apache Spark 是一种用于大规模数据处理的快速开源统一分析引擎。为应对 MapReduce 的限制,它于 2012 年在加州大学伯克利分校的 AMPLab 开发,其代码库现在由 Apache 软件基金会维护。

Spark 以速度快着称,因为与其前身 MapReduce 不同,它能够在内存 (RAM) 而不是磁盘驱动器上运行。由于它是开源软件,任何人都可以免费使用。开发人员可以制作量身定制的 Spark 版本来解决特定问题或用例。

可以使用 Spark 代替 Hadoop,而且随着开发人员开始认识到 Spark 的优势,这种做法越来越频繁。您可以在 Hadoop 上使用 Spark,也可以在没有 Hadoop 的情况下使用它,也可以将两者结合使用。

如果您已经拥有 Hadoop,则没有理由围绕它构建 Spark。如果您是从头开始,并且追求 Spark 提供的速度和实时数据分析,那么没有理由首先构建 Hadoop。

然而,答案实际上取决于您尝试使用 Spark 运行大数据的目的。 Hadoop 旨在高效处理批处理,而 Spark 旨在高效处理实时数据。因此,如果您的目标是分析实时事件,Spark Streaming 可能是最佳选择。当您需要从 Hadoop 的资源管理器获得复杂的资源管理时,使用 Spark on Hadoop 将是最佳选择。

您使用 Spark 来分析和操作大数据,以检测模式并获得实时洞察力。它可以在任何类 UNIX 系统(Mac OS 或 Linux)、Windows 或任何运行当前支持的 Java 版本的系统上运行。 (有关更多详细信息,请查看文档。Spark 有许多使用大数据的用例,从零售商使用它来分析消费者行为,到医疗保健领域为患者提供更好的治疗建议。

优化 Spark 大数据工作负载的 3 个技巧

一旦开始运行 Spark 工作负载,您可能会遇到常见的 Spark 问题,例如滞后或作业失败。以下是我们发誓可以提供帮助的三个提示。

有些公司选择在没有额外工具的情况下运行 Spark,但我们建议使用 APM 工具来确保您满足 SLA、实现业务目标并保持在预算之内。

作者 east
Flink 5月 10,2023

Flink Web UI用于开发看运行结果的教程

Flink Web UI是Flink提供的一个可视化界面,可以用于监控正在运行的任务并查看其状态、性能以及事件日志等信息。以下是如何在Flink Web UI中查看运行结果的步骤:

  1. 打开Flink Web UI
    在浏览器中输入Flink集群的Web UI地址,并登录。默认情况下,Flink Web UI运行在8081端口,地址为http://<flink-master>:8081。
  2. 选择运行的任务
    在Flink Web UI首页,您可以看到正在运行的任务列表。选择您要查看的任务名称,进入任务详情页面。
  3. 查看任务状态
    在任务详情页面的“任务管理”选项卡中,您可以看到当前任务的状态、开始时间、运行时间、并行度等信息。如果您的任务已经完成,您可以在“任务Events”选项卡中查看任务完成后的事件日志。
  4. 查看任务输出
    在任务详情页面的“任务Metrics”选项卡中,您可以找到“收集器”选项,并在其下找到“输出”指标。这将显示您的任务输出的数量和大小信息。
  5. 查看任务日志
    在Flink Web UI中,您可以查看任务的运行日志。在任务详情页面的“任务Logs”选项卡中,您可以找到Flink的日志输出,并查找任何错误或异常信息。

总之,在Flink Web UI中,您可以通过多种途径来监控和了解您的任务:查看任务状态、了解任务的性能表现、查看任务输出和事件日志以及跟踪任务的日志。这些信息将有助于您分析任务的运行情况并调试任何出现的问题。

作者 east
Flink 5月 8,2023

Flink CDC的日志解析

在开发Flink CDC时,可以看到类似下面的日志:

com.ververica.cdc.connectors.mysql.source.reader.MySqlSourceReader [] – Binlog offset on checkpoint 83: {transaction_id=null, ts_sec=0, file=mysql_binary_log.000031, pos=488646219, kind=SPECIFIC, gtids=0ada2b25-c265-11e9-8a8d-fa163e713fa8:1-2781408, row=0, event=0, server_id=1}

根据日志可以做下面的解析:

  • 你的Flink任务是使用Flink CDC Connector来从MySQL读取数据,并且使用MySqlSourceReader来读取MySQL的binlog。
  • 你的Flink任务在checkpoint 83时,记录了当前的binlog偏移量,用于在故障恢复时重新定位数据源。
  • 你的binlog偏移量包含了以下几个字段:
    • transaction_id: 当前事务的ID,如果没有事务,则为null。
    • ts_sec: 当前事件的时间戳,单位为秒。
    • file: 当前binlog文件的名称。
    • pos: 当前binlog文件的位置,单位为字节。
    • kind: 当前事件的类型,可以是SPECIFIC(特定事件),ROW(行事件),DDL(数据定义语言事件)或DML(数据操作语言事件)。
    • gtids: 当前全局事务标识符集合,用于跨多个MySQL服务器标识事务。
    • row: 当前行事件的行号,从0开始。
    • event: 当前行事件的事件号,从0开始。
    • server_id: 当前MySQL服务器的ID。
作者 east
Flink 5月 8,2023

运行flink出错:Could not acquire the minimum required resources.

运行flink任务报下面错误:

Caused by: java.util.concurrent.CompletionException: org.apache.flink.runtime.jobmanager.scheduler.NoResourceAvailableException: Could not acquire the minimum required resources. at java.util.concurrent.CompletableFuture.encodeThrowable(CompletableFuture.java:292) at java.util.concurrent.CompletableFuture.completeThrowable(CompletableFuture.java:308) at java.util.concurrent.CompletableFuture.uniApply(CompletableFuture.java:593) at java.util.concurrent.CompletableFuture$UniApply.tryFire(CompletableFuture.java:577) … 37 more Caused by: org.apache.flink.runtime.jobmanager.scheduler.NoResourceAvailableException: Could not acquire the minimum required resources.

这个错误表示你的Flink集群没有足够的任务槽来满足你的作业需求。你需要增加每个TaskManager的槽数或者增加TaskManager的实例数12。Flink本身不能触发动态扩缩容,你只能手动启动更多的TaskManager或者修改TaskManager的配置并重启1。如果你的TaskManager在作业运行时挂掉了,你可以定义一个重启策略(注意你需要开启检查点)3。

作者 east
大数据开发 5月 8,2023

xxjob可以调度spark、flink等大数据任务吗,推荐几款最好用的大数据调度器

是的,XXL-Job可以调度Spark、Flink等大数据任务。除了XXL-Job,还有许多其他好用的大数据调度器,下面为您推荐几款:

  1. Apache Airflow:基于Python的开源数据流编排和调度平台,可轻松管理跨越各种数据源、处理引擎和机器学习框架的复杂工作流。
  2. Apache NiFi:开源数据集成和分发平台,支持从不同来源(例如文件、JDBC、MQTT、HTTP等)提取、转换和传输数据。
  3. Apache Oozie:基于Hadoop的开源工作流和调度器,可以轻松管理各种复杂工作流,并可以扩展到不同的处理引擎和服务。
  4. Azkaban:分布式批处理工作流平台,提供易于使用的界面和高度可配置的任务调度。
  5. DolphinScheduler:分布式的易用可靠的任务调度平台,支持多类型任务(包括Hadoop、Spark、Flink等),提供可扩展、高效和高可用性的特性。

以上仅是一些常见的大数据调度工具,用户可根据自身实际情况选择合适的工具。

作者 east
Hive 5月 7,2023

Hive 查询优化的 Hive 性能调优方法

您确定您的 Hive 查询正在以最佳状态执行吗?你可能会感到惊讶。 Apache Hive 是当今许多大型企业环境中使用最普遍的查询引擎,但这并不意味着它可以自动优化工作。为了充分利用引擎并实现 Hive 查询优化,调整其性能非常重要。但在深入探讨之前,让我们介绍一下 Hive 性能调优的基础知识。

什么是 Hive 性能调优? Hive 性能调优是指旨在改进和加速 Hive 环境性能的集体流程和步骤。当查询未优化时,简单语句的执行时间会更长,从而导致性能滞后和停机。

如何优化 Hive 查询?性能调优是优化 Hive 查询的关键。首先,通过分区、分桶、压缩等调整数据。改进 Hive 查询的执行是另一种 Hive 查询优化技术。您可以通过使用 Tez、避免偏斜和增加并行执行来做到这一点。最后,抽样和单元测试可以帮助您首先查看(并解决)较小规模的问题,从而帮助优化查询。

虽然我们现在了解它的重要性,但调整 Hive 环境以获得最佳性能可能会很棘手。知道如何分析 Hive 查询性能是成功的必要条件。但是 Hive 性能调优最佳实践是什么?开发人员和运维团队可以做些什么来确保最佳的 Hive 查询性能?

如果您有这些问题,这篇文章适合您。继续阅读以了解三个关键类别的有效性能调整最佳实践。无论您是调整时间还是有效利用资源,这些技巧都适用。

想要更多关于提高 Hive 查询性能的技巧?获取我们的电子书:通过真正了解查询的执行方式来提高性能。

如何提高我的 Hive 性能?大多数用户和开发人员都是从调整他们的数据开始的。使用分区、分桶、压缩、避免小文件等都是很棒的 Hive 查询优化技术。

在 Pepperdata,我们处理有关 Hive 查询的各种问题,其中主要是提高 Hive 性能。在本节中,我们将深入探讨如何尽可能少地操纵数据以获得成功。

分区

分区是一种常见的 Hive 查询调优策略,它根据键将表数据放置在表位置的单独子目录中。分区键提供了一个机会来定位表数据的一个子集,而不是扫描您的操作不需要的数据。

无论存在多少数据,当你有分区时,Hive 只读取特定数量的数据来生成结果。这极大地提高了性能,即使您执行复杂的分析查询也是如此。这是因为 Hive 只需从子句中指定的几个分区读取数据。它已经在启动查询执行之前过滤掉所需的数据。

分桶

Bucketing 类似于分区,是一种 Hive 查询调优策略,允许您以数据子集为目标。在这种情况下,专门通过扫描更少的数据来提高连接性能。由于需要输入、输出或存储在内存中的数据更少,因此这改进了跨时间和效率向量的查询。

Hive 中的分桶需要将表数据集分解为更小的部分。因此,数据更容易处理。使用分桶,您可以连接相似的数据类型并将它们写入单个文件。此处的此步骤大大提高了连接表或读取数据时的性能。这就是带分区的分桶在 Hive 用户中如此受欢迎的原因。

压缩

压缩被列为最好的 Hive 查询优化技术之一。大数据压缩减少了处理大型数据集所需的带宽和存储量。此外,压缩从您的系统中消除了冗余和不重要的部分。

查询操作的每一位数据都有与从磁盘获取数据、进入内存、内存不足以及返回磁盘或另一个最终目标相关的 I/O。压缩最大限度地减少了遍历每个步骤的数据量,并减少了在查询状态中移动所花费的时间。

避免小文件

从查询中消除小文件操作是一种有效的 Hive 性能调优策略。这样做可以促进健康的 Hive 生态系统。每个文件都由 Hive Metastore 跟踪并存储在 HDFS 中,每个文件都经过性能优化以处理较大的文件而不是许多较小的文件。查询性能受限于整个系统和平台的健康状况。

反规范化数据

如果您想消除在运行时从多个表连接数据的需要,Hive 专家建议将数据反规范化作为一种​​首选的 Hive 性能调整方法。通过向一个或多个表添加冗余数据来执行反规范化。这可以帮助我们避免在关系数据库中进行代价高昂的连接。

虽然规范化很有用,但除了从操作中完全消除不需要的数据之外,避免连接是您可以对给定查询做出的最有影响力的更改之一。

表设计

Hive 表不同于大多数数据专业人员所习惯的传统数据库表。它们本质上是子目录。增加分区数量以促进高效读取和并行性是针对这种情况的最有效的 Hive 优化技术之一。然而,这个解决方案并不过分。分区过多会降低 Metastore 和 Hive 服务器的性能。跟踪和基线性能是了解分区数量何时从有益变为有害的最佳方式。

简单连接通常更好

有很多策略旨在提高连接的效率。 SMB 连接、映射连接、流表——每一个都旨在消除连接的复杂性或阶段。嵌套连接的执行成本也很高。由于连接的成本很高,因此正在做很多工作来提高连接性能。

输入文件格式选择

输入格式选择在 Hive 查询调优中很重要。例如,在处理生成大量数据的大规模生产系统时,JSON 不是理想的格式选择。这是因为 JSON 和类似的格式类型实际上占用了大量空间以及一些解析开销。

Apache Hive 利用 RCFile 和 ORC 等列式输入格式来解决此类问题。列格式使您能够单独访问每一列,从而减少分析查询中的读取操作。这导致更快的查询性能。

一开始就正确编写 Hive 查询至关重要。 Hive 查询的执行主要取决于其用户编写的代码。但并不是所有的代码都写得完美。事实上,他们需要不断调整和改变。 Hive 查询调优不仅仅与数据有关;提高执行力对于 Hive 的成功也至关重要。

使用 Tez(或更好的东西)

Apache Tez 是一个构建在 Apache Hadoop 2.0 (Yarn) 之上的框架,旨在加速 Hive 的查询执行。 Tez 帮助用户启动和持有一个或多个容器,这些容器可以重复使用以执行多个查询。它还可以帮助用户避免多次磁盘 IO 并减少启动 JVM 的开销。

执行引擎显然是开发人员关注的焦点,因为我们看到 Tez、LLAP 和 Hive on Spark 等框架希望以无需低级调优即可提高性能的方式添加到核心 Hive。理解和利用手头任务的最佳执行引擎应该是 Hive 性能调整的强制性考虑因素。

避免歪斜

Hive 查询部署一组分布式任务。整体查询仅与最慢的任务一样快。确保在任务之间均匀分配工作是一种有效的 Hive 性能调整方法。这是因为在某些任务中,它通过处理比必要的更多数据来防止查询本身变慢。

增加并行执行

默认情况下,Hive 只会在给定时间执行一个阶段。然而,一个特定的工作可能包含多个阶段,这些阶段可能并不完全相互依赖。并行执行这些非相互依赖的阶段,而不是在一个实例中运行单个阶段,可以大大减少整个作业的运行时间。

并行执行是最好的 Hive 优化技术之一,但只有在不需要顺序操作时才应利用它。并行度的数量取决于资源的可用性和数据的结构。这是另一个领域,如果没有良好的性能解决方案,“正确”的数字可能很难得出。

抽样/单元测试是一个很大的帮助

抽样和单元测试就是在你去操作一百万行之前获取你的数据的一个子集并运行一千行。这种特定的 Hive 查询调优最佳实践可帮助您了解您的代码如何工作,以便在您将大数据集投入其中之前获得所需的结果。这并非万无一失,但在小范围内解决失败或奇怪的结果比在规模上这样做更快、更有效。

将错误的查询拒之门外

仔细检查查询性能并防止低效查询进入生产环境听起来很简单,但是这个 Hive 性能调整步骤经常被跳过,直到出现问题并且为时已晚。在提升到更高级别的环境之前,应自动测量每个查询的性能和效率以满足最低可接受水平。

根据我们的 2021 年大数据调查报告,29% 的企业表示 Hive 应用程序和工作负载消耗了他们的大部分资源。 Hive 是当今企业运营的重要组成部分。这就是为什么在保持资源消耗和相关成本可控的同时微调 Hive 查询以实现最佳性能至关重要的原因。

作者 east
大数据开发 5月 7,2023

使用 Query Spotlight 提升 Apache Impala 查询性能

“查询是我们客户大数据工作负载的重要组成部分,因此我们知道这些工作负载的性能至关重要。 IT 和应用程序团队现在可以在一个地方了解他们的 Hive 和 Impala 查询,比较他们的查询运行并利用 Query Spotlight 提供的建议,”Pepperdata 首席执行官 Ash Munshi 说。 “我们相信 Query Spotlight 可以提高 Impala 查询的性能,同时帮助他们降低总体成本。”

您的 Apache Impala 查询是否运行缓慢且未达到最佳性能?鉴于 Impala 的复杂性,故障排除可能非常困难。如果没有合适的工具,优化查询性能几乎是不可能的。好消息:Pepperdata Query Spotlight 现在支持 Apache Impala。

Query Spotlight 使操作员和开发人员可以轻松了解其查询和工作负载的详细 Hive 查询性能特征,以及影响这些工作负载的基础架构范围内的问题。通过添加 Impala 支持,现在可以调整、调试和优化这一重要类别的查询工作负载,以提高性能并降低成本。

大数据中的 Apache Impala 是什么?为什么它会成为热门的大数据处理平台?

Apache Impala 是一种开源 MPP(大规模并行处理)SQL 查询引擎,用于处理大量数据。 Impala 提供极高的性能和低延迟,这与其他流行的 Hadoop SQL 引擎不同。

Apache Impala 在大数据处理中的作用是通过消除在分析前将大数据集迁移到指定的处理系统或转换数据格式的需要来增强和增强性能参数。 Apache Impala 的基本功能包括:

Apache Impala 在短短两年内的快速增长和扩张源于 Amazon Web Services 和 MapR 现在都支持它。

Impala Apache 使用标准组件,包括 HBase、HDFS、YARN、Sentry 和 Metastore。除了 Apache Hadoop 的灵活性和可扩展性之外,此功能还允许 Impala 用户享受组合 SQL 支持的好处。借助 Impala,您可以使用传统的 SQL 知识以光速处理存储在 HDFS 中的数据。您还可以访问存储在 Amazon S3、HBase 和 HDFS 中的数据——即使没有 Java 知识。

Apache Impala 的 Query Spotlight 为开发人员和运营商提供了平台性能的全景图,并帮助他们削减运营成本。从详细的统计信息、查询计划、每个查询持续时间的分解等等,可见性是无与伦比的。 Query Spotlight 还提供了对 Impala 数据库和表的可见性。推荐引擎包括系统级推荐和查询级推荐——包括连接。该工具还可以生成更有效、更理想的 Apache 调优配置。

除了可视化有关资源利用率和数据库视图的详细查询信息外,Query Spotlight 还使 Impala 用户能够创建和接收有关 Apache Impala 查询的警报、修复问题并优化查询性能。 Query Spotlight 使开发人员能够:

操作员可以在多用户环境中快速缩小有问题的查询,并使用查询性能洞察来优化集群资源并提高生产力。总而言之,Query Spotlight 现在支持 Apache Impala 带来了以下好处:

超过三分之一的 IT 支出用于故障排除、性能和可用性。最重要的是,80% 的组织正在超出其大数据预算。低效的查询是其中很大一部分,造成错过 SLA 和缓慢的数据库资源。 Query Spotlight for Apache Impala 让这一切变得更好。

作者 east
Kafka 5月 7,2023

Kafka 优化:四个最佳实践

Apache Kafka 是一个强大的工具。它允许创建易于扩展的实时、高吞吐量、低延迟数据流。优化后,Kafka 会带来其他好处,例如抵抗集群内发生的机器/节点故障以及集群上数据和消息的持久化。这就是 Kafka 优化如此重要的原因。

优化你的 Kafka 框架应该是一个优先事项。但是,可能很难知道究竟如何优化 Kafka。这就是为什么我们为您带来四个 Kafka 最佳实践,您可以实施这些最佳实践以充分利用该框架。

以下是四个基本的 Kafka 优化技巧:

您的 Kafka 部署可能是一个挑战,因为分布式架构有很多层,并且可以在这些层内调整许多参数。

例如,通常情况下,具有自动数据冗余的高吞吐量发布-订阅 (pub/sub) 模式是一件好事。但是,当您的消费者努力跟上您的数据流,或者如果他们无法阅读消息,因为这些消息在消费者到达它们之前就消失了,那么就需要做一些工作来支持消费应用程序的性能需求。

但是这四种基本的做法应该是你Kafka优化的基础。继续阅读以深入了解这些方法。

实现和维护 Kafka 部署需要持续监控。 Kafka 是一个强大的实时数据流框架。未能优化会导致流式传输缓慢和性能滞后。

Kafka 优化是一个广泛的主题,可以非常深入和精细,但这里有四个高度利用的 Kafka 最佳实践可以帮助您入门:

1.升级到最新版本的Kafka。

这听起来可能非常明显,但您会惊讶于有多少人使用旧版本的 Kafka。一个非常简单的 Kafka 优化举措是升级并使用最新版本的平台。您必须确定您的客户是否使用旧版本的 Kafka(0.10 或更早版本)。如果是,他们应该立即升级。

Kafka 每次更新都会略有变化。最新的 Kafka 版本于 2021 年 4 月发布,提供了 KIP-500 的早期访问版本,使用户即使没有 Apache ZooKeeper 也可以运行 Kafka 代理。这消除了对内部 Raft 实现的需要。其他变化包括支持每个集群更多的分区、更无缝的操作和更严格的安全性。

2. 了解数据吞吐率。

优化 Apache Kafka 部署是优化平台堆栈层的练习。分区是吞吐量性能所基于的存储层。

每个分区的数据速率是消息的平均大小乘以每秒消息数。简而言之,它是数据通过分区的速率。所需的吞吐率决定了分区的目标架构。

这是一个关键的 Kafka 优化技巧:为了提高吞吐量,您可以扩大请求中获取的最小数据量。这导致更少的请求。然后以更大的批次传递消息。这一点至关重要,尤其是在生成的数据量较少时。对 Kafka 吞吐量指标的广泛了解将帮助用户在这种情况下充分优化他们的 Kafka 系统。

3. 在编写主题时坚持随机分区,除非体系结构要求另有要求。

解决方案架构师希望每个分区都支持相似的数据量和吞吐率。实际上,数据速率会随着时间的推移而变化,生产者和消费者的原始数量也会随之变化。

可变性带来的性能挑战是消费者滞后的可能性,也就是消费者读取率落后于生产者写入率。随着 Kafka 环境的扩展,随机分区是一种有效的方法,可确保您不会在不必要地尝试将静态定义应用于移动性能目标时引入人为瓶颈。

分区领导通常是通过由 Zookeeper 维护的元数据进行简单选举的产物。然而,领导选举并没有考虑到各个分区的性能。

根据您的 Kafka 发行版,可以利用专有的平衡器。但由于缺少此类工具,随机分区提供了实现平衡性能的最不干涉途径。

这就是为什么随机分区是我们推荐的关键 Apache Kafka 最佳实践之一。它为消费者平均分配负载。因此,扩展消费者变得更加容易。当您使用默认分区程序而不手动识别特定分区或消息密钥时,这实际上会发生这种情况。随机分区最适合无状态或“令人尴尬的并行”服务。

外卖?在写入主题时坚持随机分区,除非体系结构要求另有要求。

4.调整consumer socket buffer,实现高速摄取。

在较旧的 Kafka 版本中,参数 receive.buffer.bytes 默认设置为 64kB。在较新的 Kafka 版本中,参数为 socket.receive.buffer.bytes,默认为 100kB。

这对 Kafka 优化意味着什么?对于高吞吐量环境,这些默认值太小,因此不够用。当代理和消费者之间的网络带宽延迟乘积大于 LAN(局域网)时,情况就很明显了。

当没有足够的磁盘时,线程会变慢并变得有限。 Apache Kafka 最重要的最佳实践之一是增加网络请求缓冲区的大小。这样做将帮助您提高吞吐量。
如果您的网络以 10 Gbps 或更高的速度运行并且延迟为 1 毫秒或更长,建议您将套接字缓冲区调整为 8 或 16 MB。如果内存有问题,请考虑 1 MB。

优化 Apache Kafka 部署是一项持续的工作,但 Kafka 的这四个最佳实践应该是一个坚实的开始。上面提到的性能优化技巧只是用户可以实施以提高 Kafka 性能的一些优化方法。

Kafka 越来越受到应用程序开发人员、IT 专业人员和数据管理人员的欢迎。并且有充分的理由。有关 Kafka 的更多信息,请查看我们的另一篇博文,其中讨论了将 Kafka 应用于应用程序开发和数据管理的特定领域时的最佳实践。

作者 east
Hive 5月 6,2023

Hive 查询介绍——它们是什么以及如何有效地编写它们

在大数据领域,Hive 是一个大问题。精心编写和精心设计的 Hive 查询可加速从数据集中检索数据。 Hive 比 SQL 好得多,因为前者可以更有效地处理复杂数据。此外,Hive 查询有助于降低处理成本。这就是为什么为大数据分析用户和开发人员正确编写和优化 Hive 查询至关重要。

与其他可用的数据处理平台相比,完全优化的数据查询以更快的速度为您提供所需的数据。高效有效的 Hive 查询可以减少 50% 的执行时间。当您的数据处理框架运行得更快时,好处就会增加。

回答这个问题首先要准确理解 Hive 到底是什么。 Apache Hive 是一个在 Hadoop 之上开发的开源数据仓库平台,用于执行数据分析和分布式处理。 Facebook 创建了 Apache Hive 以减少编写 Java MapReduce 平台所需的工作。

大数据流程需要快速准确地处理大量不同的数据,以提供高度可行的见解。如果手动完成,这是一项不可能完成的任务。 Hive 的存在是为了简化大数据处理,并通过快速 Hive 查询将原始数据转化为可操作的内容。

使用 Hive 进行查询和数据分析比使用 MapReduce 框架更容易、更快,即使在处理大型数据集时也是如此。为简单起见,我们将重点关注 MapReduce 作为主要执行引擎,了解 Hive 还可以利用 Tez、Tez LLAP 和 Spark。 MapReduce 是一个低级平台,需要多个自定义程序才能运行。开发人员必须熟悉 Java,它已经是一个复杂的平台,才能充分利用 MapReduce。相比之下,您无需成为 Java 专家即可使用 Hive。

通常,Hive 查询只是对信息的请求。当在数据科学和计算机编程的上下文中使用时,Hive 查询是同一回事。不同之处在于信息直接来自数据库。

Hive 查询不仅仅是随机信息请求。您要检索的信息必须具体。因此,您可以使用一组预定义代码和数据库原生的编程语言来编写和优化 Hive 查询。一旦数据库收到并理解该指令,它就会收集查询中指定的所有信息并发布您请求的数据。

要真正从您的查询中获得最大价值,它们必须写得很好并且经过专业调整。但在此之前,让我们深入了解您需要了解的关于它们的其他信息。

用于创建数据库管理任务和流程的标准编程语言称为结构化查询语言 (SQL)。但是,SQL 并不是使用 Hive 执行查询和数据分析的唯一编程语言。 AQL、Datalog 和 DMX 也是流行的选择。

Hive 查询语言或 HiveQL 是一种类似于 SQL 的声明性语言。 HiveQL 所做的是将这些查询转换为 MapReduce 程序。它还使开发人员能够通过将复杂的 MapReduce 程序替换为 Hive 查询来处理和分析结构化和半结构化数据。

任何熟悉 SQL 命令的开发人员都会发现使用 Hive 查询语言创建请求很容易。

分区、表和桶的创建

您可以在 Hive 中创建查询,以将存储在 Hadoop 文件中的大型数据集分类到表、分区和存储桶中。在每个模型中,您根据分区或列键对相同类型的数据进行分组。可以有一个或多个分区键来帮助查明特定分区。分区数据集加速了对数据切片的查询。

ETL 功能

在将数据加载到其目标数据存储之前,您需要使用 ETL(提取、转换和加载)功能清理、准备和转换该数据。 Hive 查询可以做到这一点。数据通常从源中提取,然后存储在通用或兼容的存储中,例如 Azure Data Lake Storage 或 Azure Storage blob。然后一系列查询转换数据。在此之后,数据在 Apache Hive 中进行组织,然后再批量加载到其目标数据仓库中。

创建用于合并不同数据表的连接

Hive 查询可以包括连接,这是一种用于通过使用每个表共享的值来组合来自两个或多个表的特定字段或记录的功能。联接在速度方面以指数方式提高 Hive 查询的效率,具体取决于查询的编写方式。例如,当它们首先对最小表进行流式处理,最后对最大表进行流式传输时,带有连接子句的查询执行得更快,而不是相反。

有四种类型的连接,对每一种类型的深入了解将帮助用户选择正确的连接来使用——并编写正确的查询。这四种类型的连接是:

按查询排序

HiveQL 中的 ORDER BY 语法使用“SELECT”语句来帮助对数据进行排序。此语法遍历 Hive 表上的列,以按照“Order by”子句中的说明查找和筛选特定列值。查询只会选取 Order by 子句中提到的列名,并以升序或降序显示匹配的列值。

按查询分组

当 Hive 查询带有“GROUP BY”时,它会探索 Hive 表上的列并收集 group by 子句中提到的所有列值。查询将仅查看名称定义为“group by”子句的列,并将通过对特定和匹配的列值进行分组来显示结果。

按查询排序

当 Hive 查询带有“排序依据”子句时,它会遍历查询定义的名称下的列。执行后,查询会探索 Hive 表的列以对输出进行排序。如果您使用“DESC”指令按查询排序,您将按降序排序和显示结果。带有“ASC”的查询将执行升序排序并以类似方式显示结果。

按查询聚类

带有 CLUSTER BY 子句或命令的 Hive 查询通常部署在查询中以同时执行 DISTRIBUTE BY 和 SORT BY 的功能。此特定查询可确保对所有输出数据文件进行绝对排序或排序。

分配方式

DISTRIBUTE BY 指令确定输出如何在 MapReduce 作业中的缩减程序之间分配。 DISTRIBUTE BY 的功能类似于 GROUP BY 子句,因为它管理如何将数据行加载到 reducer 中进行处理。

查看另一篇博文,您将在其中了解如何通过 Hive 查询优化来充分利用 Hive 查询。

以下是您在管理 Hive 查询时会遇到的常见命令的简要介绍。

Hive 数据定义语言 (DDL) 命令

Apache Hive 备忘单是一个包含所有 Apache Hive 语法和函数的五部分摘要。为开发人员和大数据工程师提供参考或指导。

Apache Hive 备忘单分为以下部分:

Hive 查询会消耗资源。在大数据的世界里,资源就是金钱,资源的低效利用可能会阻碍任何组织。因此,Hive 查询优化对于将资源消耗保持在最低水平、运营成本可控以及整体性能处于最佳水平至关重要。

以下是优化 Hive 查询的一些有效方法:

针对我们所有的查询优化您的方法至关重要。 Pepperdata 为企业提供大数据优化解决方案,旨在为他们的查询、Query Spotlight 以及他们的所有堆栈、应用程序、流程等提供全面的可见性和可观察性。用户享受实时性能报告和数据驱动的建议,以优化其大数据基础架构及其所有组件的性能,同时显着降低运营成本。

作者 east
大数据开发 5月 4,2023

dolphinscheduler如何安装(分布式)

DolphinScheduler 是一个分布式任务调度系统,可以对任务或者工作流进行统一管理和调度。它支持丰富的任务调度方式,包括定时执行、依赖关系、补偿机制等。以下是 Dolphinscheduler 的安装教程:

  • 确认服务器配置:首先需要确认服务器的配置,包括 CPU 核心数、内存大小、磁盘空间等。Dolphinscheduler 需要运行在至少 2 台服务器上,其中一个需要作为 Master 节点,其他为 Worker 节点。
  • 下载安装包:从 Dolphinscheduler 的官网下载最新的稳定版本。通常情况下,推荐下载二进制包进行安装。下载完成后,将压缩包上传到服务器上,并解压到指定的目录。
  • 配置环境变量:需要配置环境变量,以便在任何位置启动或停止 DolphinScheduler。假设你解压到 /opt 目录下,可以修改 /etc/profile 文件,并加入以下内容:
export DOLPHINSCHEDULER_HOME=/opt/dolphinscheduler
export PATH=$DOLPHINSCHEDULER_HOME/bin:$PATH
  • 初始化数据库:在安装 DolphinScheduler 之前,需要初始化数据库并创建相应的用户和权限。你可以使用如下的命令进行初始化:
cd /opt/dolphinscheduler/bin
sh create-dolphin-db.sh
  • 修改配置文件:在 conf 目录下,有两个核心的配置文件:dolphinscheduler.properties 和 worker.properties。其中,dolphinscheduler.properties 主要配置 Master 节点相关的参数,而 worker.properties 则配置 Worker 节点相关参数。需要根据实际情况进行修改。
  • 启动 DolphinScheduler:在 Master 节点上,使用以下命令启动 DolphinScheduler:
cd /opt/dolphinscheduler
./bin/dolphinscheduler-daemon.sh start master

如果需要启动 Worker 节点,可以使用以下命令:

cd /opt/dolphinscheduler
./bin/dolphinscheduler-daemon.sh start worker
  • 访问 DolphinScheduler:启动完成后,在浏览器中输入 Master 节点的 IP 地址和端口号(默认为 12345),即可访问 DolphinScheduler 的 Web 界面进行任务管理和调度。

总体来说,DolphinScheduler 的安装比较简单,但需要注意配置文件和数据库的初始化,以便保证系统的正常运行。

作者 east
大数据开发 5月 4,2023

在CDH6.3.2的大数据集群中,怎样安装dolphinscheduler调度器

  • 安装MySQL (5.6.24+),JDK (1.8.0_292+),ZooKeeper (3.4.5+),Hadoop (3.0.0+)等基础组件。
  • 下载dolphinscheduler的二进制包,并解压到部署目录,如 /opt/module/dolphinscheduler。
  • 在每台部署机器上创建部署用户 dolphinscheduler,并配置sudo免密和ssh免密登录。
  • 在MySQL中创建数据库 dolphinscheduler,并授权给用户 dolphinscheduler。
  • 修改 conf 目录下的 datasource.properties 和 dolphinscheduler_env.sh 文件,配置数据库连接信息和环境变量。
  • 将 mysql-connector-java 驱动 jar 包复制到 lib 目录下。
  • 执行 script/create-dolphinscheduler.sh 脚本,创建表和导入基础数据。
  • 执行 bin/install.sh 脚本,一键部署。
  • 访问 http://localhost:12345/dolphinscheduler ,使用默认账号 admin 和密码 dolphinscheduler123 登录。


dolphinscheduler 下载地址

https://www.apache.org/dyn/closer.lua/dolphinscheduler/3.1.5/apache-dolphinscheduler-3.1.5-bin.tar.gz


dolphinscheduler 部署指南

https://dolphinscheduler.apache.org/zh-cn/docs/3.1.5/%E9%83%A8%E7%BD%B2%E6%8C%87%E5%8D%97_menu

作者 east

上一 1 … 17 18 19 … 41 下一个

关注公众号“大模型全栈程序员”回复“小程序”获取1000个小程序打包源码。回复”chatgpt”获取免注册可用chatgpt。回复“大数据”获取多本大数据电子书

标签

AIGC AI创作 bert chatgpt github GPT-3 gpt3 GTP-3 hive mysql O2O tensorflow UI控件 不含后台 交流 共享经济 出行 图像 地图定位 外卖 多媒体 娱乐 小程序 布局 带后台完整项目 开源项目 搜索 支付 效率 教育 日历 机器学习 深度学习 物流 用户系统 电商 画图 画布(canvas) 社交 签到 联网 读书 资讯 阅读 预订

官方QQ群

小程序开发群:74052405

大数据开发群: 952493060

近期文章

  • AUTOSAR如何在多个供应商交付的配置中避免ARXML不兼容?
  • C++thread pool(线程池)设计应关注哪些扩展性问题?
  • 各类MCAL(Microcontroller Abstraction Layer)如何与AUTOSAR工具链解耦?
  • 如何设计AUTOSAR中的“域控制器”以支持未来扩展?
  • C++ 中避免悬挂引用的企业策略有哪些?
  • 嵌入式电机:如何在低速和高负载状态下保持FOC(Field-Oriented Control)算法的电流控制稳定?
  • C++如何在插件式架构中使用反射实现模块隔离?
  • C++如何追踪内存泄漏(valgrind/ASan等)并定位到业务代码?
  • C++大型系统中如何组织头文件和依赖树?
  • 如何进行AUTOSAR模块的持续集成(CI)部署与版本控制?

文章归档

  • 2025年5月
  • 2025年4月
  • 2025年3月
  • 2025年2月
  • 2025年1月
  • 2024年12月
  • 2024年11月
  • 2024年10月
  • 2024年9月
  • 2024年8月
  • 2024年7月
  • 2024年6月
  • 2024年5月
  • 2024年4月
  • 2024年3月
  • 2023年11月
  • 2023年10月
  • 2023年9月
  • 2023年8月
  • 2023年7月
  • 2023年6月
  • 2023年5月
  • 2023年4月
  • 2023年3月
  • 2023年1月
  • 2022年11月
  • 2022年10月
  • 2022年9月
  • 2022年8月
  • 2022年7月
  • 2022年6月
  • 2022年5月
  • 2022年4月
  • 2022年3月
  • 2022年2月
  • 2022年1月
  • 2021年12月
  • 2021年11月
  • 2021年9月
  • 2021年8月
  • 2021年7月
  • 2021年6月
  • 2021年5月
  • 2021年4月
  • 2021年3月
  • 2021年2月
  • 2021年1月
  • 2020年12月
  • 2020年11月
  • 2020年10月
  • 2020年9月
  • 2020年8月
  • 2020年7月
  • 2020年6月
  • 2020年5月
  • 2020年4月
  • 2020年3月
  • 2020年2月
  • 2020年1月
  • 2019年7月
  • 2019年6月
  • 2019年5月
  • 2019年4月
  • 2019年3月
  • 2019年2月
  • 2019年1月
  • 2018年12月
  • 2018年7月
  • 2018年6月

分类目录

  • Android (73)
  • bug清单 (79)
  • C++ (34)
  • Fuchsia (15)
  • php (4)
  • python (42)
  • sklearn (1)
  • 云计算 (20)
  • 人工智能 (61)
    • chatgpt (21)
      • 提示词 (6)
    • Keras (1)
    • Tensorflow (3)
    • 大模型 (1)
    • 智能体 (4)
    • 深度学习 (14)
  • 储能 (44)
  • 前端 (4)
  • 大数据开发 (484)
    • CDH (6)
    • datax (4)
    • doris (28)
    • Elasticsearch (15)
    • Flink (78)
    • flume (7)
    • Hadoop (19)
    • Hbase (23)
    • Hive (40)
    • Impala (2)
    • Java (71)
    • Kafka (10)
    • neo4j (5)
    • shardingsphere (6)
    • solr (5)
    • Spark (99)
    • spring (11)
    • 数据仓库 (9)
    • 数据挖掘 (7)
    • 海豚调度器 (9)
    • 运维 (33)
      • Docker (2)
  • 小游戏代码 (1)
  • 小程序代码 (139)
    • O2O (16)
    • UI控件 (5)
    • 互联网类 (23)
    • 企业类 (6)
    • 地图定位 (9)
    • 多媒体 (6)
    • 工具类 (25)
    • 电商类 (22)
    • 社交 (7)
    • 行业软件 (7)
    • 资讯读书 (11)
  • 嵌入式 (70)
    • autosar (63)
    • RTOS (1)
    • 总线 (1)
  • 开发博客 (16)
    • Harmony (9)
  • 技术架构 (6)
  • 数据库 (32)
    • mongodb (1)
    • mysql (13)
    • pgsql (2)
    • redis (1)
    • tdengine (4)
  • 未分类 (6)
  • 程序员网赚 (20)
    • 广告联盟 (3)
    • 私域流量 (5)
    • 自媒体 (5)
  • 量化投资 (4)
  • 面试 (14)

功能

  • 登录
  • 文章RSS
  • 评论RSS
  • WordPress.org

All Rights Reserved by Gitweixin.本站收集网友上传代码, 如有侵犯版权,请发邮件联系yiyuyos@gmail.com删除.