gitweixin
  • 首页
  • 小程序代码
    • 资讯读书
    • 工具类
    • O2O
    • 地图定位
    • 社交
    • 行业软件
    • 电商类
    • 互联网类
    • 企业类
    • UI控件
  • 大数据开发
    • Hadoop
    • Spark
    • Hbase
    • Elasticsearch
    • Kafka
    • Flink
    • 数据仓库
    • 数据挖掘
    • flume
    • Kafka
    • Hive
    • shardingsphere
    • solr
  • 开发博客
    • Android
    • php
    • python
    • 运维
    • 技术架构
    • 数据库
  • 程序员网赚
  • bug清单
  • 量化投资
  • 在线查询工具
    • 去行号
    • 在线时间戳转换工具
    • 免费图片批量修改尺寸在线工具
    • SVG转JPG在线工具

分类归档数据仓库

精品微信小程序开发门户,代码全部亲测可用

  • 首页   /  大数据开发
  • 分类归档: "数据仓库"
储能, 数据仓库 9月 25,2024

离线数仓月度统计要注意时间窗口问题(跨天统计导致违背现实物理规律)

在做物联网项目,要按月统计电压差和温度差时,刚开始最容易想到的是找出当月电压最大值和电压最小值,然后按求压差。最后统计结果是压差都很大。而实际上,是要找出某个小的周期内的温差,这种跨很大时间范围的压差并没有实际意义。

下面是先按天计算最大值,然后再按当月求最大值的sql:

SELECT ds, 
       max(max_diff_u) AS daily_max_diff 
FROM (
    SELECT ds, 
           cu, 
           max(value) - min(value) AS max_diff_u 
    FROM (
        SELECT id, 
               value, 
               ds 
        FROM your_table_name e 
        WHERE pid rlike '\\.U$' 
          AND (char_length(pid) - char_length(REPLACE(pid, '.', ''))) = 8 
          AND ds <= '${yes_date}' 
          AND (value < 4.9 OR value > 2.5) 
          AND ds >= from_timestamp(DATE_TRUNC('MONTH', from_unixtime(cast(unix_timestamp('${yes_date}','yyyyMMdd') AS bigint))), 'yyyyMMdd')
    ) AS daily_values 
    GROUP BY ds, pid
) AS daily_diffs 
GROUP BY ds
ORDER BY ds;
作者 east
数据仓库 7月 15,2024

大数据质量监控方法与实现

一、引言

在大数据时代,数据的质量直接关系到企业决策的准确性和业务发展的稳定性。本文旨在详细介绍大数据环境下数据质量的标准、监控方法以及相应的代码实现,确保数据的准确性、完整性、一致性和可靠性。我们将结合具体中间件和代码示例,全面阐述如何实现高效的数据质量监控。

二、数据质量标准

数据质量通常通过以下几个维度来衡量:

  1. 准确性:数据应真实反映实际情况,无错误或偏差。
  2. 完整性:数据应包含所有必需的信息,无遗漏。
  3. 一致性:同一实体在不同数据源或不同时间点的数据应保持一致。
  4. 时效性:数据应及时更新,满足业务需求。
  5. 可用性:数据应易于访问和使用,无格式或权限障碍。

三、数据质量监控方法

数据质量监控可以从多个层次进行,包括任务基线级别、任务级别与表级别、字段级别以及报表级别。

1. 任务基线级别监控

任务基线级别监控主要关注整个数据流水线(ETL任务)的运行状态和产出情况。

  • 监控内容:
    • 所有任务运行时长:与昨天运行时长对比,异常则报警。
    • 结果任务产出时间:与基线规定时间对比,未按时产出则预警。

实现方式:

  • 使用Apache Airflow等调度工具管理ETL任务,通过任务日志和执行时间监控任务运行时长和产出时间。
  • 配置Airflow的DAG(Directed Acyclic Graph)依赖关系,确保任务按序执行。

2. 任务级别 & 表级别监控

任务级别和表级别监控关注单个任务或表的运行状态和产出数据。

  • 监控内容:
    • 任务运行时长:与昨天运行时长对比。
    • 任务产出时间:与任务规定产出时间对比。
    • 表产出大小:与昨日分区大小对比。

实现方式:

  • 在ETL任务中添加日志记录功能,记录任务开始时间、结束时间和产出数据大小。
  • 使用Shell脚本或Python脚本定期检查日志文件,对比任务运行时长、产出时间和产出大小,异常则发送邮件或消息通知。

3. 字段级别监控

字段级别监控关注具体数据字段的质量,包括指标字段和维度字段。

  • 监控内容:
    • 指标字段:均值、最大值、最小值、中位数等,与昨天、近7天、近30天的数据进行对比。
    • 维度字段:维度覆盖率、维度占比、维度下指标的波动。

实现方式:

  • 使用Apache Spark进行大规模数据处理,通过Spark SQL计算字段的统计指标。
  • 结合Deequ等开源数据质量监控工具,编写DQC(Data Quality Center)任务,自动化监控字段质量。

代码示例:使用Deequ监控字段质量

import com.amazon.deequ.VerificationSuite
import com.amazon.deequ.checks.Check
import com.amazon.deequ.checks.CheckLevel

val verificationSuite = VerificationSuite()
  .onData(spark.table("your_table"))
  .addCheck(
    Check(CheckLevel.Error, "Mean of metric field")
      .isComplete("metric_field")
      .hasMeanEqualTo(0.5, 0.01)
  )
  .addCheck(
    Check(CheckLevel.Warning, "Dimension coverage of gender")
      .isComplete("gender")
      .hasMin("gender", 0.9)
  )

val result = verificationSuite.run()
result.show()

4. 报表级别监控

报表级别监控将监控结果可视化,便于项目组所有人直观查看数据变化。

  • 实现方式:
    • 使用Tableau、Power BI等数据可视化工具,将监控结果绘制成趋势图、仪表盘等。
    • 配置定时任务,自动更新报表数据。
作者 east
Hive, 数据仓库 6月 25,2024

在大数据如何检测源数据中的脏数据和异常数据

在大数据Hive中,检测源数据中的脏数据和异常数据可以通过以下几个步骤来实现:

  1. 数据质量检查规则定义:
    首先,需要根据业务需求和数据特点,定义一系列数据质量检查规则。这些规则可以包括:
    • 字段值域检查:例如,性别字段只允许有”男”、”女”或”未知”等值。
    • 字段必填性检查:确保某些字段不能为空。
    • 字段唯一性检查:确保某些字段(如身份证号)具有唯一性。
    • 日期范围检查:确保日期字段在合理的范围内。
    • 数值范围检查:确保数值字段在合理的范围内。
    • 格式检查:例如,电话号码、邮箱地址等字段需要符合特定的格式。
  2. 使用Hive SQL和UDF进行数据质量检查:
    根据定义的数据质量检查规则,使用Hive SQL查询和用户自定义函数(UDF)来检测脏数据和异常数据。以下是一些示例:
    • 字段值域检查:SELECT * FROM your_table WHERE gender NOT IN ('男', '女', '未知');
    • 字段必填性检查:SELECT * FROM your_table WHERE name IS NULL;
    • 字段唯一性检查:SELECT id, COUNT(*) as cnt FROM your_table GROUP BY id HAVING cnt > 1;
    • 日期范围检查(假设有一个名为date_column的日期字段):SELECT * FROM your_table WHERE date_column < '2000-01-01' OR date_column > '2099-12-31';
    • 数值范围检查(假设有一个名为age的数值字段):SELECT * FROM your_table WHERE age < 0 OR age > 120;
    • 格式检查(使用正则表达式):SELECT * FROM your_table WHERE NOT (email RLIKE '^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$');
  3. 创建自定义函数(UDF):
    如果需要进行复杂的格式检查或计算,可以使用Java或Python编写自定义函数(UDF),然后在Hive SQL查询中调用这些函数。
  4. 定期执行数据质量检查:
    为了确保数据的持续质量,可以定期(如每天、每周或每月)执行数据质量检查任务。这可以通过设置定时任务(如使用Cron Job)或使用调度工具(如Apache Airflow)来实现。
  5. 数据清洗和处理:
    对于检测到的脏数据和异常数据,可以采取以下措施进行处理:
    • 删除:直接删除不符合要求的数据行。
    • 修正:根据业务需求修正错误的数据。
    • 填充缺失值:对于缺失的数据,可以根据业务规则填充合适的默认值或通过插值方法进行填充。
    • 记录日志:记录检测到的脏数据和异常数据,以便后续分析和处理。
作者 east
数据仓库 6月 13,2024

数据仓库数据质量检测的免费开源框架对比及应用场景

数据仓库的数据质量检测是确保数据分析可靠性的关键环节。幸运的是,有许多开源框架和工具可以帮助我们实现这一目标。以下是几个知名的免费开源数据质量检测框架及其在GitHub上的链接,以及它们的优缺点和应用场景:

  1. Great Expectations
    • GitHub: https://github.com/great-expectations/great_expectations
    • 优点:
      • 提供丰富的期望(Expectations)来验证数据,包括列值的分布、缺失值检查、唯一性验证等。
      • 支持多种数据源,如SQL数据库、Spark、Pandas DataFrame等。
      • 可视化报告和文档化,便于团队沟通和审计。
      • 强大的集成能力,易于与CI/CD流程整合。
    • 缺点:
      • 初学者可能需要时间熟悉其配置和期望的设定。
      • 在大规模数据集上的性能可能需要优化。
    • 应用场景:
      • 数据湖和数据仓库的数据验证。
      • ETL流程中的数据质量保证。
      • 数据科学家和数据工程师的日常数据验证。
  2. Deequ
    • GitHub: https://github.com/awslabs/deequ
    • 优点:
      • 由AWS开发,专为Apache Spark设计,适用于大数据量的处理。
      • 提供一系列预定义的质量规则(如完整性、唯一性、合规性等)。
      • 可以生成详细的分析报告,指出数据问题所在。
    • 缺点:
      • 主要面向Spark用户,对其他数据处理引擎支持有限。
      • 配置和使用相对于某些工具来说更为复杂。
    • 应用场景:
      • 大规模数据湖和数据仓库的质量监控。
      • Spark作业中的数据质量自动化测试。
  3. DataQL
    • GitHub: https://github.com/dataql/dataql
    • 优点:
      • 基于查询语言(类似SQL)的数据质量检查框架,易于上手。
      • 支持多种数据源,灵活性高。
      • 通过定义数据质量规则来驱动检查,便于定制化。
    • 缺点:
      • 相比其他工具,社区较小,资源和文档可能不够丰富。
      • 功能相对较为基础,对于高级数据质量检测需求可能不够全面。
    • 应用场景:
      • 简单数据源的数据质量快速验证。
      • 小型项目或初创团队的数据质量初步建立。
  4. OpenRefine
    • GitHub: https://github.com/OpenRefine/OpenRefine
    • 优点:
      • 强大的数据清洗和转换工具,也包含数据质量检测功能。
      • 图形界面友好,适合非技术人员使用。
      • 支持数据的批量修改和标准化。
    • 缺点:
      • 不是专门针对数据质量检测设计,更多是作为数据预处理工具。
      • 运行环境为本地,不适合大规模数据处理。
    • 应用场景:
      • 数据探索和准备阶段,手动或半自动进行数据质量检查和修正。
      • 数据分析师和数据记者进行数据清理和初步分析。

选择合适的工具时,应考虑项目规模、数据源类型、团队技术栈以及是否有特定的集成需求。每种工具都有其独特的优势和局限性,因此,综合评估并选择最符合自己项目需求的工具是关键。

作者 east
数据仓库, 数据库 3月 25,2022

数据工程最糟糕的部分是什么

在数据工程团队中,列表很长,取决于您的个人角色。但我的一般选择是“最终数据科学家和数据分析师糟糕的 SQL 语句”。

可能不是一个明显的答案,所以让我解释一下。

如果您正在使用数据仓库,让我们从数据工程团队的三个主要工作领域的角度来看这个问题:

构建 ETL 管道 → 将数据导入您的仓库

构建转换→加入/转换不同的数据集

公开数据以供下游使用 → 报告、分析、ML/AI

数据工程师还需要对元数据进行分类和组织,并定义从仓库写入和读取数据的流程。在某种程度上,他们是数据仓库的图书馆员。

然后目标是尽可能抽象和自动化。通过自动化,数据工程师可以将他们稀缺的时间用于构建与维护/修复。

您还通过向您提供的数据添加 SLA 来向业务做出承诺。 “报告将在太平洋标准时间早上 6 点之前完成”或“我们的分析环境仅比我们的生产环境晚 15 分钟”。

瞧,您已经完成了以上所有工作,将其投入生产,稍作调整,一切正常。你可以继续做别的事情。嗯,不。

变革的驱动力

事情不是一成不变的。如果您正在为一家不断发展的企业工作,那么您将不得不应对三个挑战:

数据量在 5 年内增长约 10 倍,同时出现了越来越多的新型数据源

模型的数量正在增长。随着您将更多数据引入您的仓库,您可以以无限新的方式组合这些数据。你会听到术语“DAG”(有向无环图)。

用户和工具的数量正在增长。随着业务的增长,需要/想要访问数据的人数也在增加。他们将希望使用他们选择的工具访问这些数据。

数据工程的挑战

现在你是负责这个堆栈的数据工程师。您的公司将雇用更多的数据工程师来保持运转。例如,Netflix 每个数据源都有一名数据工程师,他们的全部工作就是保持该数据源的盘子旋转。

但并非每家公司都有 Netflix 的预算。人数有上限。但是,贵公司招聘的数据科学家和分析师的数量似乎没有限制。更多的关注数据是“数据驱动的”。

因此,“数据构建者”(数据工程师)和“数据消费者”(数据分析师、科学家、机器学习应用程序等)之间的比例猛增。

我看到(数据构建者)与(数据消费者)的比率介于 1:20 到 1:40 之间。一名数据工程师必须支持 20-40 个下游用户。

这就是问题开始的地方。回到最初的三个工作领域,将会发生以下情况:

ETL 管道运行很长时间并产生错误和问题。不过,您可能只能在运行后发现,现在您必须弄清楚是什么损坏了。这是一个巨大的干扰。

现有的模型可能无法提供企业想要的答案。分析师想要快速行动,因此他们绕过您并开始添加新模型,甚至直接在您的仓库中查询原始数据。如果基础表发生变化,这会导致模型膨胀和损坏。

您的最终用户可能正在使用为他们生成 SQL 的工具。或者他们编写自己的 SQL 语句。这两种方法都可能导致糟糕的 SQL 语法使整个仓库紧张,每个人的查询速度都很慢。

然后用户向数据工程师提交支持票(“我的查询很慢”,或者“我的查询没有完成或完成”)。你会被支持请求淹没。

我们当然是在戏剧化,但从方向上讲,这是工作中最糟糕的三个部分。让我们称之为“保持盘子旋转”。

数据工程中最糟糕的部分

我书中最糟糕的一点是最后一点——处理糟糕的 SQL。

那是因为管道和模型是您可以控制的。约定、工具、监控、警报、访问权限等——有一种方法可以在事物周围设置护栏。

但是控制最终用户和他们的 SQL 是不可能的。例如,我见过没有 WHERE 子句的“SELECT *”查询,它连接两个表,每个表有 20 亿行。输出量如此之大,以至于它会填满并取下仓库。 “谁写了那个查询??”。

不太引人注目的结果包括编写查询,例如10 分钟的执行时间,一个小的更改可能会导致 1 分钟的执行时间。这听起来可能没什么大不了的(“我会同时去喝杯咖啡”),但这是生产力的巨大损失。对于数据科学,快速迭代和测试模型就是一切。

是的,您可以设置规则来终止查询,但所做的只是增加分析师文件的支持票数,因为查询没有完成。

对于数据工程师来说,这些查询是谁编写的也不是很明显。分析师使用的工具掩盖了他们背后的用户。 Tableau、Looker 或 Mode Analytics 等仪表板工具在您的仓库中显示为一个用户。

但在他们身后,他们可能有 100-200 人在编写查询。因此,您使用“Looker”作为用户,但您不知道是“Jack”、“Anne”还是“Joe”编写了查询。因此,要找出发生了什么以及谁编写了哪个查询,需要进行大量的挖掘工作。

概括

所以你去,上面是长版本。答案的简短版本是“最终用户的 SQL 语句不佳”。

这是一个问题,原因有以下三个:

您无法控制分析师编写的 SQL 语法。您可能只有在查询运行并造成损坏后才能发现。

分析师用来编写查询的工具掩盖了他们背后的用户。在拥有数百名用户的情况下,找到编写查询的用户就像大海捞针一样。

您不能只是关闭分析师或终止他们的查询——这将导致支持票证的增加以及数据工程和数据消费者之间的摩擦。

随着数据生产者与数据消费者的比例越来越大,问题只会越来越大。您必须支持的最终用户越多,您必须处理的投诉和罚单就越多,这是一个巨大的挫败感和时间浪费。

当然,这个问题的答案是让分析师能够编写更好的 SQL,并帮助数据工程师在这方面与分析师协作。

作者 east
Hive, 数据仓库 2月 19,2022

Hive构建数据仓库常用的函数

concat()函数。

concat()函数用于连接字符串,在连接字符串时,只要其中一个字符串是NULL,结果就返回NULL。

concat_ws()函数。

concat_ws()函数同样用于连接字符串,在连接字符串时,只要有一个字符串不是NULL,结果就不会返回NULL。concat_ws()函数需要指定分隔符。

str_to_map()函数。

● 语法描述。str_to_map(VARCHAR text,VARCHAR listDelimiter,VARCHARkeyValueDelimiter)。

● 功能描述。使用listDelimiter将text分隔成key-value对,然后使用keyValueDelimiter分隔每个keyvalue对,并组装成MAP返回。默认listDelimiter为“,”,keyValueDelimiter为“=”。

nvl()函数

基本语法:nvl(表达式1,表达式2)。如果表达式1为空值,则nvl()函数返回表达式2的值,否则返回表达式1的值。nvl()函数的作用是把一个空值(null)转换成一个实际的值。其表达式的数据类型可以是数字型、字符型和日期型。需要注意的是,表达式1和表达式2的数据类型必须相同。

日期处理函数

1)date_format()函数(根据格式整理日期)

hive> select date_format('2020-03-18',''yyyy-MM');
hive> 2020-03

2)date_add()函数(加减日期)

hive> select date_add('2020-03-11',1);
hive> 2020-03-12

3)next_day()函数

(1)获取当前日期的下一个星期一。

hive> select next_day('2020-03-13','MO');
hive> 2020-03-16

(2)获取当前周的星期一。

hive> select date_add(next_day('2020-03-13','MO'),-7);
hive> 2020-03-11

4)last_day()函数(获取当月最后一天的日期)

作者 east
数据仓库 5月 2,2021

数据仓库分层及命名规则

数据仓库中的数据要想真正发挥最大的作用,必须对数据仓库进行分层,数据仓库分层的优点如下。

● 把复杂问题简单化。可以将一个复杂的任务分解成多个步骤来完成,每层只处理单一的步骤。

● 减少重复开发。规范数据分层,通过使用中间层数据,可以大大减少重复计算量,增加计算结果的复用性。

● 隔离原始数据。使真实数据与最终统计数据解耦。数据仓库具体如何分层取决于设计者对数据仓库的整体规划,不过大部分的思路是相似的。

本数据仓库分为五层,如下所述。

● ODS层:原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理。

● DWD层:明细数据层,对ODS层数据进行清洗(去除空值、脏数据、超过极限范围的数据)、维度退化、脱敏等。

● DWS层:服务数据层,以DWD层的数据为基础,按天进行轻度汇总。

● DWT层:主题数据层,以DWS层的数据为基础,按主题进行汇总,获得每个主题的全量数据表。

● ADS层:数据应用层,面向实际的数据需求,为各种统计报表提供数据。数据仓库分层后要遵守一定的数据仓库命名规范,本项目中的规范如下。

1.表命名ODS层命名为ods_表名。

DWD层命名为dwd_dim/fact_表名。DWS层命名为dws_表名。

DWT层命名为dwt_购物车。ADS层命名为ads_表名。临时表命名为tmp_×××。用户行为表以.log为后缀。

2.脚本命名脚本命名格式为数据源to目标_db/log.sh。用户行为需求相关脚本以.log为后缀;业务数据需求相关脚本以.db为后缀。

作者 east
数据仓库 4月 28,2021

关系型数据库(关系模型)转变为数据仓库(维度模型)示例

关系模型示意如图1所示,严格遵循第三范式(3NF)。从图1中可以看出,模型较为松散、零碎,物理表数量多,但数据冗余程度低。由于数据分布于众多的表中,因此这些数据可以更为灵活地被应用,功能性较强。关系模型主要应用于OLTP中,为了保证数据的一致性及避免冗余,大部分业务系统的表都是遵循第三范式的。

维度模型示意如图2所示,其主要应用于OLAP中,通常以某一张事实表为中心进行表的组织,主要面向业务,其特征是可能存在数据的冗余,但用户能方便地得到数据。关系模型虽然数据冗余程度低,但在大规模数据中进行跨表分析、统计、查询时,会造成多表关联,这会大大降低执行效率。所以通常我们采用维度模型建模,把各种相关表整理成事实表和维度表两种。所有的维度表围绕事实表进行解释。

图1 关系模型示意
图2 维度模型示意
作者 east
数据仓库 1月 3,2021

数据采集与同步经验之谈

根据埋点位置,可分为客户端埋点、服务端埋点,实际各有利弊,比如服务端埋点对后台请求的用户无法捕获,而客户端埋点可能会由于用户的环境问题存在数据丢包,客户端可能无法获取全部的数据等,所以在无特殊情况下,建议采用服务端埋点方案。

埋点要把一切用户操作行为都看做事件,覆盖事件的核心要素,包括人、时间、事、地点、方式。

埋点的数据格式,要确保灵活、可扩展性,上报数据采用json格式,不要太深的嵌套。

作者 east

关注公众号“大模型全栈程序员”回复“小程序”获取1000个小程序打包源码。回复”chatgpt”获取免注册可用chatgpt。回复“大数据”获取多本大数据电子书

标签

AIGC AI创作 bert chatgpt github GPT-3 gpt3 GTP-3 hive mysql O2O tensorflow UI控件 不含后台 交流 共享经济 出行 图像 地图定位 外卖 多媒体 娱乐 小程序 布局 带后台完整项目 开源项目 搜索 支付 效率 教育 日历 机器学习 深度学习 物流 用户系统 电商 画图 画布(canvas) 社交 签到 联网 读书 资讯 阅读 预订

官方QQ群

小程序开发群:74052405

大数据开发群: 952493060

近期文章

  • 详解Python当中的pip常用命令
  • AUTOSAR如何在多个供应商交付的配置中避免ARXML不兼容?
  • C++thread pool(线程池)设计应关注哪些扩展性问题?
  • 各类MCAL(Microcontroller Abstraction Layer)如何与AUTOSAR工具链解耦?
  • 如何设计AUTOSAR中的“域控制器”以支持未来扩展?
  • C++ 中避免悬挂引用的企业策略有哪些?
  • 嵌入式电机:如何在低速和高负载状态下保持FOC(Field-Oriented Control)算法的电流控制稳定?
  • C++如何在插件式架构中使用反射实现模块隔离?
  • C++如何追踪内存泄漏(valgrind/ASan等)并定位到业务代码?
  • C++大型系统中如何组织头文件和依赖树?

文章归档

  • 2025年6月
  • 2025年5月
  • 2025年4月
  • 2025年3月
  • 2025年2月
  • 2025年1月
  • 2024年12月
  • 2024年11月
  • 2024年10月
  • 2024年9月
  • 2024年8月
  • 2024年7月
  • 2024年6月
  • 2024年5月
  • 2024年4月
  • 2024年3月
  • 2023年11月
  • 2023年10月
  • 2023年9月
  • 2023年8月
  • 2023年7月
  • 2023年6月
  • 2023年5月
  • 2023年4月
  • 2023年3月
  • 2023年1月
  • 2022年11月
  • 2022年10月
  • 2022年9月
  • 2022年8月
  • 2022年7月
  • 2022年6月
  • 2022年5月
  • 2022年4月
  • 2022年3月
  • 2022年2月
  • 2022年1月
  • 2021年12月
  • 2021年11月
  • 2021年9月
  • 2021年8月
  • 2021年7月
  • 2021年6月
  • 2021年5月
  • 2021年4月
  • 2021年3月
  • 2021年2月
  • 2021年1月
  • 2020年12月
  • 2020年11月
  • 2020年10月
  • 2020年9月
  • 2020年8月
  • 2020年7月
  • 2020年6月
  • 2020年5月
  • 2020年4月
  • 2020年3月
  • 2020年2月
  • 2020年1月
  • 2019年7月
  • 2019年6月
  • 2019年5月
  • 2019年4月
  • 2019年3月
  • 2019年2月
  • 2019年1月
  • 2018年12月
  • 2018年7月
  • 2018年6月

分类目录

  • Android (73)
  • bug清单 (79)
  • C++ (34)
  • Fuchsia (15)
  • php (4)
  • python (43)
  • sklearn (1)
  • 云计算 (20)
  • 人工智能 (61)
    • chatgpt (21)
      • 提示词 (6)
    • Keras (1)
    • Tensorflow (3)
    • 大模型 (1)
    • 智能体 (4)
    • 深度学习 (14)
  • 储能 (44)
  • 前端 (4)
  • 大数据开发 (488)
    • CDH (6)
    • datax (4)
    • doris (30)
    • Elasticsearch (15)
    • Flink (78)
    • flume (7)
    • Hadoop (19)
    • Hbase (23)
    • Hive (40)
    • Impala (2)
    • Java (71)
    • Kafka (10)
    • neo4j (5)
    • shardingsphere (6)
    • solr (5)
    • Spark (99)
    • spring (11)
    • 数据仓库 (9)
    • 数据挖掘 (7)
    • 海豚调度器 (10)
    • 运维 (34)
      • Docker (3)
  • 小游戏代码 (1)
  • 小程序代码 (139)
    • O2O (16)
    • UI控件 (5)
    • 互联网类 (23)
    • 企业类 (6)
    • 地图定位 (9)
    • 多媒体 (6)
    • 工具类 (25)
    • 电商类 (22)
    • 社交 (7)
    • 行业软件 (7)
    • 资讯读书 (11)
  • 嵌入式 (70)
    • autosar (63)
    • RTOS (1)
    • 总线 (1)
  • 开发博客 (16)
    • Harmony (9)
  • 技术架构 (6)
  • 数据库 (32)
    • mongodb (1)
    • mysql (13)
    • pgsql (2)
    • redis (1)
    • tdengine (4)
  • 未分类 (6)
  • 程序员网赚 (20)
    • 广告联盟 (3)
    • 私域流量 (5)
    • 自媒体 (5)
  • 量化投资 (4)
  • 面试 (14)

功能

  • 登录
  • 文章RSS
  • 评论RSS
  • WordPress.org

All Rights Reserved by Gitweixin.本站收集网友上传代码, 如有侵犯版权,请发邮件联系yiyuyos@gmail.com删除.