gitweixin
  • 首页
  • 小程序代码
    • 资讯读书
    • 工具类
    • O2O
    • 地图定位
    • 社交
    • 行业软件
    • 电商类
    • 互联网类
    • 企业类
    • UI控件
  • 大数据开发
    • Hadoop
    • Spark
    • Hbase
    • Elasticsearch
    • Kafka
    • Flink
    • 数据仓库
    • 数据挖掘
    • flume
    • Kafka
    • Hive
    • shardingsphere
    • solr
  • 开发博客
    • Android
    • php
    • python
    • 运维
    • 技术架构
    • 数据库
  • 程序员网赚
  • bug清单
  • 量化投资
  • 在线查询工具
    • 去行号
    • 在线时间戳转换工具
    • 免费图片批量修改尺寸在线工具
    • SVG转JPG在线工具

分类归档大数据开发

精品微信小程序开发门户,代码全部亲测可用

  • 首页   /  
  • 分类归档: "大数据开发"
  • ( 页面20 )
Flink 4月 25,2023

运行flink的word count提示: could not find implicit value for evidence parameter of type org.apache.flink.api.common.typeinfo.TypeInformation

写了一个flink简单word count的例子:


import org.apache.flink.api.scala._

object FlinkWordCount {
  def main(args: Array[String]): Unit = {
    val env = ExecutionEnvironment.getExecutionEnvironment
    val words = List("hello", "world", "flink", "scala", "hello", "flink")

    // 为DataStream和DataSet的上下文提供隐式的类型信息
    implicit val typeInfo = createTypeInformation[WordCount]

    val wordDataSet = env.fromCollection(words)

    val wordCountDataSet = wordDataSet
      .map(word => WordCount(word, 1))
      .groupBy(0)
      .sum(1)

   
  }

  case class WordCount(word: String, count: Int)
}

提示could not find implicit value for evidence parameter of type org.apache.flink.api.common.typeinfo.TypeInformation

各种修改后还是报错,后来想到scala版本问题。
Flink 1.10.0以上版本需要Scala 2.12.x,如果使用Scala 2.11.x版本,就会报错。请确认一下你的Scala版本是否为2.12.x,如果不是请升级Scala版本到2.12.x后再运行代码。

作者 east
Flink 4月 24,2023

Flink CDC获取mysql 主从分库,分库分表的binlog

Flink CDC可以获取MySQL主从分库,分库分表的binlog,但是需要注意以下几点:

  • Flink CDC需要配置MySQL的binlog模式为row,以及开启GTID(全局事务标识符),以便正确地识别和处理binlog事件
  • Flink CDC需要配置MySQL的主从复制关系,以及指定主库或从库的地址,以便正确地连接和读取binlog数据
  • Flink CDC需要配置MySQL的分库分表规则,以及指定分库分表的键,以便正确地合并和转换binlog数据

一个可能的Flink CDC获取MySQL主从分库,分库分表的binlog的示例如下:

-- 创建MySQL主从分库,分库分表的表对象
CREATE TABLE mysql_user (
  id INT PRIMARY KEY NOT ENFORCED,
  name STRING,
  age INT
) WITH (
  'connector' = 'mysql-cdc',
  'hostname' = 'master-host', -- 主库地址
  'port' = '3306',
  'username' = 'root',
  'password' = '123456',
  'database-name' = 'test', -- 分库名
  'table-name' = 'user_${0-9}', -- 分表名
  'server-id' = '5400', -- 从库ID
  'scan.startup.mode' = 'initial', -- 初始扫描模式
  'scan.split.size' = '8096', -- 扫描块大小
  'debezium.snapshot.locking.mode' = 'none', -- 快照锁定模式
  'debezium.gtid.source.includes' = '', -- GTID包含范围
  'debezium.gtid.source.excludes' = '' -- GTID排除范围
);

-- 使用Flink SQL或DataStream API将MySQL的增量数据写入到其他目标,如Hive、Doris等
INSERT INTO hive_user SELECT * FROM mysql_user;

-- DataStream API
DataStream<Row> stream = tEnv.toAppendStream(tEnv.sqlQuery("SELECT * FROM mysql_user"), Row.class);
tEnv.createTemporaryView("stream", stream);
tEnv.executeSql("INSERT INTO doris_user SELECT * FROM stream");
作者 east
Flink 4月 24,2023

对比flink cdc和canal获取mysql binlog优缺点

Flink CDC和Canal都是用于获取MySQL binlog的工具,但是有以下几点优缺点对比:

  • Flink CDC是一个基于Flink的库,可以直接在Flink中使用,无需额外的组件或服务,而Canal是一个独立的服务,需要单独部署和运行,增加了系统的复杂度和成本
  • Flink CDC支持多种数据库的数据变化捕获,如MySQL、PostgreSQL、MongoDB等,而Canal只支持MySQL和MariaDB的数据变化捕获
  • Flink CDC支持Exactly-Once语义,保证数据的一致性和准确性,而Canal只支持At-Least-Once语义,可能会出现数据的重复或丢失
  • Flink CDC支持自动元数据更新,无需手动创建或维护表结构,而Canal需要手动创建或维护表结构,增加了开发和维护的工作量
  • Flink CDC支持Flink SQL和DataStream API的使用,方便进行数据处理和转换,而Canal只提供了Kafka、RocketMQ等消息队列的接口,需要额外的消费者进行数据处理和转换
作者 east
运维 4月 24,2023

能使用socket5协议,ssh海外vps服务器的软件

由于xshell有漏洞,公司不给使用,所以寻找一款替代软件。

除了 Xshell 之外,还有一些其他软件可以连接到国外 VPS 并设置 Socks5 代理。以下是几个比较常用的软件:

  1. PuTTY:PuTTY 是一款常用的 SSH 和 Telnet 客户端软件,可以在 Windows 平台上运行,并且可以连接到远程 SSH 服务器。PuTTY 同时也支持设置 Socks5 代理。
  2. Bitvise SSH Client:Bitvise SSH Client 也是一种常用的 SSH 客户端,可以用于在 Windows 上连接到远程 SSH 服务器。Bitvise SSH Client 提供了 Socks5 和 HTTP 代理配置选项,并且支持在 Windows 上设置全局 Socks5 代理。
  3. WinSCP:WinSCP 是用于在 Windows 平台上使用 SSH 的免费开源工具,它还具有文件传输和文件管理的功能,支持 SCP, SFTP, FTPS, FTP 等协议。WinSCP 支持使用 Socks5 代理连接到 SFTP 服务器。

经过自己试验,觉得 Bitvise SSH Client 使用方便,用代理速度很快。之前在centos装ss5软件,访问起来龟速,用 Bitvise SSH Client 代理访问很快。

作者 east
doris 4月 23,2023

使用navicat来访问doris

访问Doris的UI

http:// dorisfe_ip:8030

由于doris是使用mysql协议,因此可以不用任何额外配置就可以使用navicat访问doris。 可以使用MySql客户端来连接Doris FE,也可以使用mysql命令工具连接,因为他是Mysql协议,所以在使用上跟Mysql一样的。

只是doris默认的端口不是3306,而是9030。

也可以用mysql命令行来访问doris。

  • Mysql命令连接
mysql -uroot -P9030 -h127.0.0.1

注意:

  1. 这里使用的 root 用户是 doris 内置的默认用户,也是超级管理员用户
  2. -P :这里是我们连接 Doris 的查询端口,默认端口是 9030,对应的是fe.conf里的 query_port
  3. -h : 这里是我们连接的 FE IP地址,如果你的客户端和 FE 安装在同一个节点可以使用127.0.0.1,这种也是 Doris 提供的如果你忘记 root 密码,可以通过这种方式不需要密码直接连接登录,进行对 root 密码进行重置

作者 east
Spark 4月 23,2023

运行spark的任务报下面的错误”org.apache.spark.memory.SparkOutOfMemoryError: Unable to acquire 65536 bytes of memory, got 0″,

这个错误表明Spark没有足够的内存来执行任务。可以试着通过以下方式修复:

  1. 增加可用内存。可以增加集群的内存或者减少任务的内存需求。
  2. 调整Spark的内存配置。可以调整Spark的内存配置,如executor的内存大小和driver的内存大小。
  3. 减少数据量。如果处理的数据量很大,可以考虑分批处理或者采用其他的数据处理方式。
  4. 使用内存优化技术。可以使用缓存、序列化等技术来优化内存使用。
  5. 调整GC策略。可以考虑采用更适合应用场景的GC策略。
作者 east
doris 4月 19,2023

免费可源可商用的BI工具对比(支持Doris 数据库)

目前市面上有很多开源的 BI 工具可供选择,以下是几个免费、开源且可以商用的 BI 工具,并且支持和 Doris 数据库结合使用:

  1. Superset:由 Airbnb 发起的开源 BI 工具,带有可视化和交互式仪表盘功能。Superset 支持多种数据源,其中包括 Doris 数据库。
  2. Metabase:一个简单易用的 BI 工具,支持数据可视化和 SQL 查询。Metabase 支持多种数据库,包括 Doris 数据库。
  3. Redash:一个开源的数据查询和可视化工具,支持多种数据源,包括 Doris 数据库。

这些工具都支持多种数据源,包括 Doris 数据库,并提供了直观的查询和可视化界面,可以帮助分析师更好地理解和分析数据。

下面是 Datart 和上述三种开源 BI 工具的优缺点对比:

  1. Datart:Datart 是一个功能强大、易于使用的商业智能工具,可以满足复杂的数据分析需求。Datart 支持多种数据源,包括 Doris 数据库,并提供了数据清洗、数据可视化、数据建模等多种功能,可以帮助分析师更好的理解和分析数据。然而,由于 Datart 是商业软件,其使用和技术支持可能需要一定的成本投入。
  2. Superset:Superset 是一个由 Airbnb 发起的开源 BI 工具,带有可视化和交互式仪表盘功能。Superset 使用简便,具有良好的报表和图表设计能力,并支持多种数据源,包括 Doris 数据库。但是相对于 Datart,Superset 的数据建模和数据处理能力相对较弱。
  3. Metabase:Metabase 是一个简单易用的开源 BI 工具,具有良好的可视化和查询功能,并支持多种数据源,包括 Doris 数据库。然而与 Datart 相比,Metabase 的数据处理和数据建模能力相对较弱。
  4. Redash:Redash 是一个开源的数据查询和可视化工具,支持多种数据源,包括 Doris 数据库。Redash 方便易用,具有良好的查询和可视化功能,但是相对于 Datart,其扩展性和定制化能力相对较弱。

总的来说,选择适合自己的 BI 工具需要综合考虑多方面因素,包括数据规模、数据处理复杂度、报表需求、用户人数等。商业 BI 工具通常具有更强大的功能和更好的技术支持,但需要投入一定的成本。同时,开源 BI 工具虽然使用简单,但其扩展能力和个性化定制能力相对较差。

作者 east
大数据开发 4月 18,2023

Starburst Galaxy 获得数据可发现性更新

分析软件提供商 Startburst 周二表示,它正在为 Startburst Galaxy 添加数据可发现性功能,Startburst Galaxy 是一项托管的 Trino SQL 查询引擎服务。
Trino,前身为 Presto SQL,是一种用于大数据的开源分布式 SQL 查询引擎,允许用户在单个查询中查询来自多个数据源(包括 NoSQL 数据库)的数据。
该公司表示,这些更新是在 AWS re:Invent 2022 上宣布的,将帮助企业简化传统的提取、转换、加载 (ETL) 流程来管理数据产品,从而加速数据查询、访问和分析。
通过 Starburst Galaxy 作为托管服务提供,这些新的可发现性功能正在解决与数据湖变成数据沼泽相关的挑战——杂乱无章的数据杂乱无章,这对可访问性和利用数据获得可操作见解的能力提出了重大挑战。
新功能旨在将发现时间从几小时缩短到几秒,并为自助服务数据产品管理奠定基础,无论技术专长如何。
物联网设备的激增一直是全球企业面临的杂乱无章的数据问题的重要贡献者。据 IDC 称,到 2025 年,预计将有 557 亿台联网的物联网设备,产生近 80 兆字节的数据(相当于十亿太字节或万亿千兆字节)。
Starburst 董事长兼首席执行官 Justin Borgman 在一份新闻稿中表示:“Starburst Galaxy 使组织能够更有效地发现正确的数据集,有助于降低成本,同时从数据中获得更多价值。”
该公司期望这些新功能将帮助企业创建自助服务数据产品,包括数据发现、模式发现和精细访问控制。
顾名思义,数据发现功能有助于找到所需的数据集及其位置。该公司表示,该功能使元数据能够自动填充查询历史和上下文,从而提供有关数据使用方式的关键见解。
另一方面,模式发现旨在消除 ETL 过程中的“转换”方面。 Starburst 表示,该功能将使企业能够发现跨来源的现有数据集以及新数据集,而不管它们位于何处。
该公司补充说,这意味着加载数据的数据工程师不需要事先考虑模式。
Starburst 说,新的粒度访问控制 (GAC) 功能旨在使企业数据管理员能够查看和了解谁有权访问哪些数据以及如何使用这些数据,并补充说这允许管理员通过策略即代码更改权限确保持续部署管道中的安全性和风险降低。
Starburst Galaxy 目前可通过各种定价计划在 AWS、Microsoft Azure 和 GCP 上使用。
Starburst Galaxy 的更新是在公司将数据产品添加到其企业数据和分析平台(称为 Starburst Enterprise)后的一年内进行的。 9 月,该公司向该平台添加了新功能以简化跨云分析。
在 re:Invent 2022 上,该公司还宣布支持通过 Starburst Enterprise 为 AWS Lake Formation 实施数据网格架构,这是一项创建数据湖的服务。
数据网格概念包含异构分布式数据的分散管理和治理。数据网格架构的目标是允许管理和分析数据,无论数据位于何处——本地、公共云或多云环境,或者 SQL 或 NoSQL 数据库。
该公司表示,作为支持的一部分,Starburst 将帮助其与 AWS 的联合客户实施数据网格的技术方面,并补充说这将帮助企业从混合部署中获得最大价值。

作者 east
doris 4月 18,2023

doris上面的集群如何读取CDH6.3.2上面hive存储数据

使用Doris的HDFS插件特性,实现将CDH上Hive的离线计算数据同步到Doris的数仓中,具体步骤如下:

  • 安装Doris HDFS插件

在Doris的所有节点上安装HDFS插件,步骤如下:

$ cd doris-<version>/bin
$ ./hadoop_deploy_tool.sh -s /opt/cloudera/parcels/CDH

其中,<version>是Doris的版本号,/opt/cloudera/parcels/CDH是您CDH集群安装的路径,如果与该路径不同,则需要修改为您的路径。

  • 配置HDFS插件参数

打开Doris的配置文件doris_fe.conf,设置以下参数:

# hdfs config
hdfs_read_strategy = "distributed"
hdfs_cluster.default_fs = "hdfs://<NameNode-IP>:8020"
hdfs_cluster.list = "default"
hdfs_cluster.default_root_path = "/user/hive/warehouse"

其中,<NameNode-IP>是您CDH集群上的NameNode节点IP,后面的路径/user/hive/warehouse是Hive离线计算的数据存储路径,该路径中应包含您需要同步的所有数据。

  • 创建Doris的表并导入数据
LOAD LABEL my_label
(
    [column_name data_type [(length)] [column_attribute], ...]
)
FROM "hdfs://<NameNode-IP>:8020/user/hive/warehouse/<database_name>.db/<table_name>" 
WITH    (
        seperator='\u0001', 
        row_delimiter='\n', 
        null_string='NULL', 
        cols_charset='UTF8'
        );

根据您的业务需求,在Doris中创建相应的表,然后使用Doris的LOAD语句将数据从Hive中导入到Doris的表中,示例语句:

其中,<NameNode-IP>是您CDH集群上的NameNode节点IP,<database_name>是Hive数据库名称,<table_name>是您需要同步的数据表名称。

最后,执行上述LOAD语句即可实现将CDH上Hive的离线计算数据同步到Doris的数仓中,供运营分析和数据科学家们使用。

作者 east
bug清单, 大数据开发 4月 17,2023

CDH一个节点故障影响namenode启动

CDH某个节点磁盘故障,导致上面的角色都有问题。启动namenode时失败,日志报下面错误:

Error: recoverUnfinalizedSegments failed for required journal (JournalAndStream(mgr=QJM to [10.0.20.102:8485, 10.0.20.103:8485, 10.0.20.104:8485], stream=null))
java.io.IOException: Timed out waiting 120000ms for a quorum of nodes to respond.
at org.apache.hadoop.hdfs.qjournal.client.AsyncLoggerSet.waitForWriteQuorum(AsyncLoggerSet.java:137)
at org.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager.createNewUniqueEpoch(QuorumJournalManager.java:197)
at org.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager.recoverUnfinalizedSegments(QuorumJournalManager.java:436)
at org.apache.hadoop.hdfs.server.namenode.JournalSet6.apply(JournalSet.java:616) at org.apache.hadoop.hdfs.server.namenode.JournalSet.mapJournalsAndReportErrors(JournalSet.java:385) at org.apache.hadoop.hdfs.server.namenode.JournalSet.recoverUnfinalizedSegments(JournalSet.java:613) at org.apache.hadoop.hdfs.server.namenode.FSEditLog.recoverUnclosedStreams(FSEditLog.java:1603) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startActiveServices(FSNamesystem.java:1210) at org.apache.hadoop.hdfs.server.namenode.NameNode6.apply(JournalSet.java:616)atorg.apache.hadoop.hdfs.server.namenode.JournalSet.mapJournalsAndReportErrors(JournalSet.java:385)atorg.apache.hadoop.hdfs.server.namenode.JournalSet.recoverUnfinalizedSegments(JournalSet.java:613)atorg.apache.hadoop.hdfs.server.namenode.FSEditLog.recoverUnclosedStreams(FSEditLog.java:1603)atorg.apache.hadoop.hdfs.server.namenode.FSNamesystem.startActiveServices(FSNamesystem.java:1210)atorg.apache.hadoop.hdfs.server.namenode.NameNodeNameNodeHAContext.startActiveServices(NameNode.java:1898)
at org.apache.hadoop.hdfs.server.namenode.ha.ActiveState.enterState(ActiveState.java:61)
at org.apache.hadoop.hdfs.server.namenode.ha.HAState.setStateInternal(HAState.java:64)
at org.apache.hadoop.hdfs.server.namenode.ha.StandbyState.setState(StandbyState.java:49)
at org.apache.hadoop.hdfs.server.namenode.NameNode.transitionToActive(NameNode.java:1756)
at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.transitionToActive(NameNodeRpcServer.java:1700)
at org.apache.hadoop.ha.protocolPB.HAServiceProtocolServerSideTranslatorPB.transitionToActive(HAServiceProtocolServerSideTranslatorPB.java:107)
at org.apache.hadoop.ha.proto.HAServiceProtocolProtosHAServiceProtocolServiceHAServiceProtocolService2.callBlockingMethod(HAServiceProtocolProtos.java:4460)
at org.apache.hadoop.ipc.ProtobufRpcEngineServerServerProtoBufRpcInvoker.call(ProtobufRpcEngine.java:523)
at org.apache.hadoop.ipc.RPCServer.call(RPC.java:991) at org.apache.hadoop.ipc.ServerServer.call(RPC.java:991)atorg.apache.hadoop.ipc.ServerRpcCall.run(Server.java:869)
at org.apache.hadoop.ipc.ServerRpcCall.run(Server.java:815) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:422) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1875) at org.apache.hadoop.ipc.ServerRpcCall.run(Server.java:815)atjava.security.AccessController.doPrivileged(NativeMethod)atjavax.security.auth.Subject.doAs(Subject.java:422)atorg.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1875)atorg.apache.hadoop.ipc.ServerHandler.run(Server.java:2675)

CDH重新启动namenode时报错,错误信息为:Error: recoverUnfinalizedSegments failed for required journal (JournalAndStream(mgr=QJM to [10.0.20.102:8485, 10.0.20.103:8485, 10.0.20.104:8485], stream=null)),而且提示等待120秒超时,无法响应。这与Hadoop分布式协议不一致有关,可能由于某个节点的欠缺或故障造成了段错误。建议检查所有节点的网络连接是否正常、端口是否打开,以及检查journal节点的状态。同时也需要检查在这个问题出现之前是否已经存在其他问题。如果仍然无法解决问题,建议向CDH官方技术支持组寻求帮助。

作者 east
Hive 4月 2,2023

如何把cdh中hive存储在表数据转换为pgsql

要把cdh中hive存储在表数据转换为pgsql,您可能需要以下步骤:

  1. 在cdh集群上配置一个外部账户,以便访问CDP云存储2。
  2. 在CDP Data Lake集群上创建一个Hive数据仓库,并设置相应的权限和配置1。
  3. 在CDH集群上使用Replication Manager服务创建一个Hive复制策略,选择要复制的数据库和表,并指定目标CDP Data Lake集群和存储位置2。
  4. 运行复制策略,并检查复制结果和日志2。
  5. 在CDP Data Lake集群上使用Beeline或其他客户端连接到Hive服务,并验证数据是否正确导入2。
  6. 在CDP Data Lake集群上使用以下命令将Hive表导出为CSV文件3:
DROP TABLE IF EXISTS TestHiveTableCSV;
CREATE TABLE TestHiveTableCSV ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' AS SELECT * FROM TestHiveTable;
  1. 在CDP Data Lake集群上使用以下命令将CSV文件复制到本地目录:
hadoop fs -copyToLocal /user/hive/warehouse/testhivetablecsv /tmp
  1. 在本地目录上使用以下命令将CSV文件导入到pgsql数据库:
psql -d testdb -c "COPY testpgtable FROM '/tmp/testhivetablecsv' WITH (FORMAT csv);"
作者 east
大数据开发 4月 1,2023

什么数据操作中的可观察性?

现在是早上 8 点,一位业务负责人正在查看财务绩效仪表板,质疑结果是否准确。几个小时后,一位客户登录到您公司的门户网站并想知道为什么他们的订单没有显示最新的定价信息。下午,数字营销主管很沮丧,因为来自他们的 SaaS 工具的数据源从未进入他们的客户数据平台。数据科学家也很沮丧,因为他们无法在没有加载最新数据集的情况下重新训练他们的机器学习模型。
这些是数据操作问题,它们很重要。企业应该正确地期望准确和及时的数据将被传送到数据可视化、分析平台、客户门户、数据目录、ML 模型,以及任何数据被消费的地方。
数据管理和数据操作团队花费大量精力构建和支持数据湖和数据仓库。理想情况下,它们由实时数据流、数据集成平台或 API 集成提供,但许多组织仍然有数据处理脚本和手动工作流,这些应该在数据债务清单上。不幸的是,数据管道的稳健性有时是事后才想到的,数据操作团队通常在解决数据集成中的源、管道和质量问题时反应迟钝。
在我的《数字开拓者》一书中,我写到数据集成工具较少的日子,手动修复数据质量问题是常态。 “每个数据处理应用程序都有一个日志,每个进程,无论有多少脚本以菊花链方式连接,也都有一个日志。在寻找失败进程的根本原因时,我成为了 sed、awk、grep 和 find 等 Unix 工具的向导,可以解析这些日志。”
今天,有比 Unix 命令更强大的工具来实现数据管道的可观察性。 Dataops 团队负责超越连接和转换数据源;他们还必须确保数据集成可靠地执行并有效地解决数据质量问题。
可观察性是 devops 团队采用的一种实践,可以通过客户旅程、应用程序、微服务和数据库功能进行跟踪。实践包括集中应用程序日志文件、监控应用程序性能以及使用 AIops 平台将警报关联到可管理的事件中。目标是创建可见性、更快地解决事件、执行根本原因分析、确定性能趋势、启用安全取证并解决生产缺陷。
Dataops 可观察性针对类似的目标,只是这些工具分析数据管道,确保可靠的数据交付,并帮助解决数据质量问题。
Monte Carlo 的联合创始人兼首席技术官 Lior Gavish 说:“数据可观察性是指组织在数据操作生命周期的每个阶段了解其数据健康状况的能力,从仓库或湖中的摄取到商业智能层,大多数数据质量问题都会暴露给利益相关者。”
Ascend.io 的首席执行官兼创始人 Sean Knapp 详细阐述了数据操作问题陈述:“可观察性必须有助于识别关键因素,例如管道的实时运行状态和数据形状的趋势,”他说。 “应及早发现延迟和错误,以确保在商定的服务水平内无缝传输数据。企业应该掌握管道代码中断和数据质量问题,以便可以快速解决这些问题,而不是传播给下游消费者。”
Knapp 强调商人是数据操作管道的主要客户。许多公司都在努力成为数据驱动的组织,因此当数据管道不可靠或不可信时,领导者、员工和客户都会受到影响。数据操作可观察性工具对于这些组织来说可能至关重要,尤其是当公民数据科学家将数据可视化和数据准备工具用作日常工作的一部分时。
Coralogix 的开发倡导者 Chris Cooney 说:“可观察性不仅仅是仪表板上呈现的几张图表。这是一种跨越整个堆栈的工程实践,使团队能够做出更好的决策。”
DevOps 团队通常使用多种监控工具来覆盖基础设施、网络、应用程序、服务和数据库。它类似于数据操作——同样的动机,不同的工具。 Calyptia 的创始人兼首席执行官 Eduardo Silva 说:“您需要有适当的系统来帮助理解这些数据,没有任何一种工具是足够的。因此,您需要确保您的管道可以将数据路由到各种目的地。”
Silva 推荐供应商中立的开源解决方案。这种方法值得考虑,尤其是因为大多数组织都使用多个数据湖、数据库和数据集成平台。这些数据平台之一内置的数据操作可观察性功能可能易于配置和部署,但可能无法提供跨平台工作的整体数据可观察性功能。
需要什么能力? Acceldata.io 的联合创始人兼首席技术官 Ashwin Rajeev 说:“企业数据可观察性必须有助于克服与​​构建和运行可靠数据管道相关的瓶颈。”
Rajeev 阐述道,“数据必须每次都通过使用适当的 API 和 SDK 仪器来高效地交付。工具应具有适当的导航和向下钻取功能,以便进行比较。它应该可以帮助数据操作团队快速识别瓶颈和趋势,以便更快地进行故障排除和性能调整,从而预测和预防事故。”
Dataops 可观察性的一个方面是操作:从源到数据管理平台再到消费的可靠性和准时交付。第二个问题是数据质量。 Coalesce 联合创始人兼首席执行官 Armon Petrossian 表示:“dataops 中的数据可观察性涉及确保业务和工程团队能够访问经过适当清理、管理和转换的数据,以便组织能够真正做出数据驱动的业务和技术决策。随着数据应用程序的当前发展,为了最好地准备数据管道,组织需要专注于提供代码优先方法的灵活性但基于 GUI 以实现企业规模的工具,因为毕竟不是每个人都是软件工程师”
因此,数据操作和数据可观察性必须具有吸引使用 API 和开发强大的实时数据管道的编码人员的能力。但非编码人员也需要数据质量和故障排除工具来处理他们的数据准备和可视化工作。
“就像 devops 广泛依赖低代码自动化优先工具一样,dataops 也是如此,”Gavish 补充道。 “作为数据操作生命周期的重要组成部分,数据可观察性解决方案必须易于跨多个数据环境实施和部署。”
对于许多大型企业而言,可靠的数据管道和应用程序并不容易实施。 Mphasis 首席解决方案官 Ramanathan Srikumar 表示:“即使有了此类可观察性平台的帮助,大型企业的团队也难以抢先预防许多事件。” “一个关键问题是,数据无法充分洞察流经多个云和遗留环境的交易。”
Teradata 的首席产品官 Hillary Ashton 对此表示赞同。 “现代数据生态系统本质上是分布式的,这就造成了在整个生命周期中管理数据健康的艰巨任务。”
然后她分享了底线:“如果你不相信你的数据,你永远不会成为数据驱动的。”
Ashton 建议,“对于高度可靠的数据管道,公司需要一个 360 度视图,通过查看遥测数据来集成运营、技术和业务元数据。该视图允许识别和纠正问题,例如数据新鲜度、缺失记录、模式更改和未知错误。在流程中嵌入机器学习也可以帮助自动化这些任务。”
在使用 Unix 命令解析日志文件以解决数据集成问题方面,我们已经走了很长一段路。今天的数据观察工具要复杂得多,但为企业提供可靠的数据管道和高质量的数据处理仍然是许多组织面临的挑战。接受挑战并与业务领导者合作进行敏捷和增量实施,因为基于不可信数据构建的数据可视化和 ML 模型可能会导致错误且可能有害的决策。

作者 east

上一 1 … 19 20 21 … 41 下一个

关注公众号“大模型全栈程序员”回复“小程序”获取1000个小程序打包源码。回复”chatgpt”获取免注册可用chatgpt。回复“大数据”获取多本大数据电子书

标签

AIGC AI创作 bert chatgpt github GPT-3 gpt3 GTP-3 hive mysql O2O tensorflow UI控件 不含后台 交流 共享经济 出行 图像 地图定位 外卖 多媒体 娱乐 小程序 布局 带后台完整项目 开源项目 搜索 支付 效率 教育 日历 机器学习 深度学习 物流 用户系统 电商 画图 画布(canvas) 社交 签到 联网 读书 资讯 阅读 预订

官方QQ群

小程序开发群:74052405

大数据开发群: 952493060

近期文章

  • 如何在Chrome中设置启动时自动打开多个默认网页
  • spark内存溢出怎样区分是软件还是代码原因
  • MQTT完全解析和实践
  • 解决运行Selenium报错:self.driver = webdriver.Chrome(service=service) TypeError: __init__() got an unexpected keyword argument ‘service’
  • python 3.6使用mysql-connector-python报错:SyntaxError: future feature annotations is not defined
  • 详解Python当中的pip常用命令
  • AUTOSAR如何在多个供应商交付的配置中避免ARXML不兼容?
  • C++thread pool(线程池)设计应关注哪些扩展性问题?
  • 各类MCAL(Microcontroller Abstraction Layer)如何与AUTOSAR工具链解耦?
  • 如何设计AUTOSAR中的“域控制器”以支持未来扩展?

文章归档

  • 2025年8月
  • 2025年7月
  • 2025年6月
  • 2025年5月
  • 2025年4月
  • 2025年3月
  • 2025年2月
  • 2025年1月
  • 2024年12月
  • 2024年11月
  • 2024年10月
  • 2024年9月
  • 2024年8月
  • 2024年7月
  • 2024年6月
  • 2024年5月
  • 2024年4月
  • 2024年3月
  • 2023年11月
  • 2023年10月
  • 2023年9月
  • 2023年8月
  • 2023年7月
  • 2023年6月
  • 2023年5月
  • 2023年4月
  • 2023年3月
  • 2023年1月
  • 2022年11月
  • 2022年10月
  • 2022年9月
  • 2022年8月
  • 2022年7月
  • 2022年6月
  • 2022年5月
  • 2022年4月
  • 2022年3月
  • 2022年2月
  • 2022年1月
  • 2021年12月
  • 2021年11月
  • 2021年9月
  • 2021年8月
  • 2021年7月
  • 2021年6月
  • 2021年5月
  • 2021年4月
  • 2021年3月
  • 2021年2月
  • 2021年1月
  • 2020年12月
  • 2020年11月
  • 2020年10月
  • 2020年9月
  • 2020年8月
  • 2020年7月
  • 2020年6月
  • 2020年5月
  • 2020年4月
  • 2020年3月
  • 2020年2月
  • 2020年1月
  • 2019年7月
  • 2019年6月
  • 2019年5月
  • 2019年4月
  • 2019年3月
  • 2019年2月
  • 2019年1月
  • 2018年12月
  • 2018年7月
  • 2018年6月

分类目录

  • Android (73)
  • bug清单 (79)
  • C++ (34)
  • Fuchsia (15)
  • php (4)
  • python (45)
  • sklearn (1)
  • 云计算 (20)
  • 人工智能 (61)
    • chatgpt (21)
      • 提示词 (6)
    • Keras (1)
    • Tensorflow (3)
    • 大模型 (1)
    • 智能体 (4)
    • 深度学习 (14)
  • 储能 (44)
  • 前端 (5)
  • 大数据开发 (492)
    • CDH (6)
    • datax (4)
    • doris (31)
    • Elasticsearch (15)
    • Flink (79)
    • flume (7)
    • Hadoop (19)
    • Hbase (23)
    • Hive (41)
    • Impala (2)
    • Java (71)
    • Kafka (10)
    • neo4j (5)
    • shardingsphere (6)
    • solr (5)
    • Spark (100)
    • spring (11)
    • 数据仓库 (9)
    • 数据挖掘 (7)
    • 海豚调度器 (10)
    • 运维 (34)
      • Docker (3)
  • 小游戏代码 (1)
  • 小程序代码 (139)
    • O2O (16)
    • UI控件 (5)
    • 互联网类 (23)
    • 企业类 (6)
    • 地图定位 (9)
    • 多媒体 (6)
    • 工具类 (25)
    • 电商类 (22)
    • 社交 (7)
    • 行业软件 (7)
    • 资讯读书 (11)
  • 嵌入式 (71)
    • autosar (63)
    • RTOS (1)
    • 总线 (1)
  • 开发博客 (16)
    • Harmony (9)
  • 技术架构 (6)
  • 数据库 (32)
    • mongodb (1)
    • mysql (13)
    • pgsql (2)
    • redis (1)
    • tdengine (4)
  • 未分类 (7)
  • 程序员网赚 (20)
    • 广告联盟 (3)
    • 私域流量 (5)
    • 自媒体 (5)
  • 量化投资 (4)
  • 面试 (14)

功能

  • 登录
  • 文章RSS
  • 评论RSS
  • WordPress.org

All Rights Reserved by Gitweixin.本站收集网友上传代码, 如有侵犯版权,请发邮件联系yiyuyos@gmail.com删除.