从几千份大数据面经吐血整理：大厂大数据高频八股文面试题

这是从大厂，特别是互联网大厂几百份面试题中挑选各个知识点高频，又有一定难度的面试题，包含了大量每次面试经常问的面试题，吃透这份面试题，可以覆盖大部分八股文面试题。

请详细说一说 Java 中的四种引用：强引用、软引用、弱引用、虚引用

java 类加载机制

Java 的抽象类和接口有什么区别和联系

介绍一下 Java 的反射

GC 算法有哪些

请说明进程与线程的区别

请说明栈和堆的区别，以及它们具体存放的东西

红黑树和二叉搜索树，二叉树之间的区别

hashmap 的底层原理

Redis 有哪些常用的数据结构和使用场景

Redis 数据结构的底层结构

描述一下链表和数组之间的区别

常见的排序算法，时间复杂度，空间复杂度

红黑树和二叉搜索树，二叉树之间的区别

Java 线程创建的几种方式

Hadoop 的序列化和 Java 的序列化的区别

Hadoop 的 Combiner 的作用，什么情况下不能用 Combiner

hadoop ha 当一个 namenode 挂掉。会有数据丢失吗。如果有，有什么解决方法

介绍下 HDFS，说下 HDFS 优缺点，以及使用场景

简单介绍一下 HDFS 架构及其读写流程

HDFS 的常见数据格式，列式存储格式和行存储格式异同点，列式存储优点有哪些

Hadoop的checkpoint流程

Hadoop的默认块大小是多少?为什么要设置这么大?

Hadoop常见的压缩算法?

Hadoop作业提交到YARN的流程?

HDFS的块默认大小，64M和128M是在哪个版本更换的?怎么修改默认块大小?

MapReduce为什么一定要有环型缓冲区

MapReduce数据倾斜产生的原因及其解决方案

MapReduce Shuffle为什么要将数据写入环形缓冲区

YARN的设计思路是什么

说下为什么要使用Hive?Hive的优缺点?Hive的作用是什么?

Hive内部表和外部表的区别?

Hive的三种自定义函数是什么?实现步骤与流程?它们之间的区别?作用是什么?

Hive的cluster by、sort by、distribute by、order by区别?

Hive分区和分桶的区别及如何优化

Hive 的 union 和 union all 的区别

Hive 的 join 操作原理，left join、right join、inner join、outer join 的异同

Hive 的开窗函数有哪些

Hive row_number，rank，dense_rank 的区别

迪卡尔积会产生什么问题？

迪卡尔积会产生数据倾斜吗？

介绍下Flume采集数据的原理？底层实现？

Hadoop的Checkpoint流程？

Kafka怎么保证数据不丢失，不重复?

Kafka的offset存在哪?

Flink 的四大基石都有哪些？

Kafka 怎么保证消费顺序正确

watermark 的作用是啥？如何保证数据不丢失？

请介绍一下 Kafka 选举流程。

请介绍 Kafka 的功能和高吞吐的原因。

HBase 中的二级索引

在删除 HBase 中的一个数据的时候，它什么时候真正的进行删除呢？当你进行删除操作，它是立马就把数据删除掉了吗？

列式数据库的适用场景和优势？列式存储的特点？

HBase 为什么随机查询很快？

HBase RowKey 设计原则

HBase 的热点问题

Spark 和 Hadoop 区别

Spark 的工作原理是什么？

Spark 的工作流程是什么？

Spark on standalone 模型、YARN 架构模型

什么情况下会产生Spark Shuffle?

Spark数据倾斜问题，如何定位，解决方案

Spark join在什么情况下会变成窄依赖?

Spark的batchsize，怎么解决小文件合并问题?

Spark参数(性能)调优

介绍一下Spark怎么基于内存计算的

reduceByKey和groupByKey的区别和作用?

使用reduceByKey出现数据倾斜怎么办?

Spark为什么比Hadoop速度快?

Spark 的 RDD 是什么？具体解释下弹性是怎么实现的？

Spark Streaming的双流join的过程，怎么做的?

Spark SQL读取文件，内存不够使用，如何处理?

Sparkstreaming和Flink的区别

Checkpoint产生了很多快照，怎么进行处理呢?

SparkStreaming和StructuredStreaming的区别

Flink架构

Flink的四大基石都有哪些？

watermark的作用是啥？如何保证数据不丢失？

Flink的窗口了解哪些，都有什么区别，有哪几种?如何定义?

Flink的Checkpoint底层如何实现的?savepoint和checkpoint有什么区别?

Flink的ExactlyOnce语义怎么保证?

Flink和Spark的区别?什么情况下使用Flink?有什么优点?

Flink backPressure反压机制，指标监控你是怎么做的?如何处理背(反)压?

Flink解决数据延迟的问题

数据仓库分层(层级划分)，每层做什么?分层的好处?

星型模型和雪花模型的区别？应用场景？优劣对比

增量表、全量表和拉链表

数据仓库怎么设计表，怎么建模

增量表和全量表优缺点？

拉链表概念？缓慢变化维概念？

数据库事务的隔离级别？解决了什么问题？默认事务隔离级别？

为什么要有三大范式，建数据库时一定要遵循吗？

数据库第一范式、第二范式和第三范式的作用

说说事务的 ACID 特性

mysql 索引失效的原因？

mysql 索引的数据结构为什么使用 B + 树？

SQL 调优怎么做的？

说说三次握手和四次挥手，为什么不能两次握手和三次挥手

TDP 和 UDP 的区别

HTTP 有哪些状态码？

关注公众号【大模型全栈程序员】回复“大数据八股文”获取详细参考答案