Java 12月 22,2024

大厂面试手撕面试题:堆排序（亲测可用的java实现)

堆排序（Heap Sort）是一种基于比较的排序算法，利用堆这种数据结构来实现排序。堆是一种完全二叉树，通常用数组来表示。堆排序分为两个步骤：构建最大堆和不断将堆顶元素与末尾元素交换，再进行堆调整。

思路：

构建最大堆：首先要将数组转化为一个最大堆。最大堆的特点是父节点的值大于等于其左右子节点的值。通过调整从最后一个非叶子节点开始，向上调整整个堆。
堆排序过程：
- 将堆顶元素（最大值）与堆的最后一个元素交换。
- 然后将堆的大小减1，调用堆调整操作（heapify）恢复堆的性质，继续重复上述过程，直到堆的大小为1。

时间复杂度：

构建堆：O(n)。
- 从最后一个非叶子节点开始调整，每次调整的时间是 O(log n)，一共进行 n/2 次调整，因此时间复杂度是 O(n)。
堆排序过程：每次需要调整堆结构，进行 n 次交换，每次调整堆的时间复杂度是 O(log n)，所以堆排序的时间复杂度是 O(n log n)。

空间复杂度：

堆排序是原地排序算法，它不需要额外的空间来存储数据。时间复杂度是 O(1)。

Java代码实现：

public class HeapSort {

    // 堆化操作，维护堆的性质
    public static void heapify(int[] arr, int n, int i) {
        int largest = i; // 初始化父节点为最大值
        int left = 2 * i + 1; // 左子节点
        int right = 2 * i + 2; // 右子节点

        // 如果左子节点比父节点大
        if (left < n && arr[left] > arr[largest]) {
            largest = left;
        }

        // 如果右子节点比父节点大
        if (right < n && arr[right] > arr[largest]) {
            largest = right;
        }

        // 如果最大值不是父节点，交换并继续堆化
        if (largest != i) {
            int temp = arr[i];
            arr[i] = arr[largest];
            arr[largest] = temp;

            // 递归堆化
            heapify(arr, n, largest);
        }
    }

    // 堆排序
    public static void heapSort(int[] arr) {
        int n = arr.length;

        // 构建最大堆
        for (int i = n / 2 - 1; i >= 0; i--) {
            heapify(arr, n, i);
        }

        // 一个个地把最大元素移动到数组末尾
        for (int i = n - 1; i >= 1; i--) {
            // 将当前堆的根节点与末尾元素交换
            int temp = arr[0];
            arr[0] = arr[i];
            arr[i] = temp;

            // 调整堆
            heapify(arr, i, 0);
        }
    }

    // 输出数组
    public static void printArray(int[] arr) {
        for (int num : arr) {
            System.out.print(num + " ");
        }
        System.out.println();
    }

    // 主函数
    public static void main(String[] args) {
        int[] arr = {12, 11, 13, 5, 6, 7};

        System.out.println("Original array:");
        printArray(arr);

        heapSort(arr);

        System.out.println("Sorted array:");
        printArray(arr);
    }
}

代码解析：

heapify：这是一个递归函数，用于调整堆。每次比较父节点与左右子节点的大小，确保父节点是最大值。如果不是，则交换并继续对调整后的子树进行堆化。
heapSort：
- 第一部分是构建最大堆。从数组的最后一个非叶子节点开始，逐个堆化直到根节点。
- 第二部分是排序，将堆顶元素与最后一个元素交换，然后调整堆，重复此过程，直到数组完全排序。
printArray：用来输出数组的内容，便于调试和查看结果。

示例输出：

Original array: 12 11 13 5 6 7  
Sorted array: 5 6 7 11 12 13

作者 east

Java 12月 22,2024

大厂面试手撕面试题:归并排序（亲测可用的java实现)

归并排序（Merge Sort）是一种典型的分治算法，它将一个大问题分解成多个小问题，逐步解决，再合并结果，最终得到排序后的序列。

归并排序的思路：

分解（Divide）：将待排序的数组分成两半，递归地对这两半分别进行归并排序。
解决（Conquer）：对分解出的子数组继续进行排序，直到每个子数组只有一个元素（因为一个元素自然是有序的）。
合并（Combine）：将排序后的子数组合并成一个有序的大数组。合并是归并排序的核心步骤。

归并排序的时间复杂度与空间复杂度：

时间复杂度：
- 归并排序的时间复杂度是 O(nlogn)，无论是最坏情况、最佳情况还是平均情况。这里的 n 是待排序元素的数量，logn 是因为每次递归将数组分成两半，直到数组大小为1。
- 每一层递归的合并操作是线性时间复杂度O(n)，递归深度是logn，所以总的时间复杂度是 O(nlogn)。
空间复杂度：
- 归并排序需要额外的空间来存储合并过程中的中间结果，空间复杂度为O(n)。
- 在递归调用过程中，每次递归调用栈的深度是logn，但归并过程中需要额外的存储空间来存储中间的合并结果，所以总空间复杂度是O(n)。

归并排序的Java实现：

public class MergeSort {
    
    // 归并排序函数
    public static void mergeSort(int[] arr) {
        if (arr == null || arr.length < 2) {
            return;
        }
        // 调用辅助函数进行递归排序
        mergeSortHelper(arr, 0, arr.length - 1);
    }

    // 递归的归并排序方法
    private static void mergeSortHelper(int[] arr, int left, int right) {
        if (left < right) {
            int mid = left + (right - left) / 2;  // 防止溢出
            mergeSortHelper(arr, left, mid);       // 排序左半部分
            mergeSortHelper(arr, mid + 1, right);  // 排序右半部分
            merge(arr, left, mid, right);          // 合并两部分
        }
    }

    // 合并两个有序子数组
    private static void merge(int[] arr, int left, int mid, int right) {
        // 创建临时数组存储合并结果
        int[] temp = new int[right - left + 1];
        int i = left, j = mid + 1, k = 0;

        // 合并两个有序子数组
        while (i <= mid && j <= right) {
            if (arr[i] <= arr[j]) {
                temp[k++] = arr[i++];
            } else {
                temp[k++] = arr[j++];
            }
        }

        // 如果左半部分有剩余元素，直接复制到temp数组
        while (i <= mid) {
            temp[k++] = arr[i++];
        }

        // 如果右半部分有剩余元素，直接复制到temp数组
        while (j <= right) {
            temp[k++] = arr[j++];
        }

        // 将临时数组的内容拷贝回原数组
        System.arraycopy(temp, 0, arr, left, temp.length);
    }

    // 测试归并排序
    public static void main(String[] args) {
        int[] arr = {38, 27, 43, 3, 9, 82, 10};
        System.out.println("排序前: ");
        printArray(arr);

        mergeSort(arr);

        System.out.println("排序后: ");
        printArray(arr);
    }

    // 打印数组
    public static void printArray(int[] arr) {
        for (int num : arr) {
            System.out.print(num + " ");
        }
        System.out.println();
    }
}

代码解析：

mergeSort 函数：是外部调用的接口，接收待排序的数组。首先检查数组的有效性（如果为空或长度小于2直接返回）。
mergeSortHelper 函数：是递归的核心部分，负责将数组分成两部分，分别递归排序，直到分割到只有一个元素为止。
merge 函数：这是合并的关键部分，它接受三个参数：left, mid, right，分别表示左部分的起始索引，右部分的结束索引。合并操作会创建一个临时数组，按顺序将两个已排序的子数组合并到这个临时数组中，然后再将其复制回原数组。
printArray 函数：打印数组元素的辅助函数。

测试：

给定输入数组 {38, 27, 43, 3, 9, 82, 10}，归并排序后的输出应为：

排序前:  38 27 43 3 9 82 10  
排序后:  3 9 10 27 38 43 82

作者 east

Java 12月 22,2024

大厂面试手撕面试题:二分查找（亲测可用的java实现)

二分查找是一种在有序数组中查找特定元素的高效算法。其基本思路是通过逐步缩小查找范围来找到目标元素。每次将查找范围的中间元素与目标元素进行比较，根据比较结果决定继续查找左半部分还是右半部分。

二分查找的实现思路：

输入：一个有序数组 arr 和一个目标值 target。
初始化：设置两个指针，left 和 right，分别指向数组的左右两端（即 left = 0，right = arr.length - 1）。
循环查找：
- 计算中间位置 mid = left + (right - left) / 2。
- 如果 arr[mid] == target，则找到了目标值，返回 mid（即元素的索引）。
- 如果 arr[mid] < target，说明目标值可能在右半部分，将 left 移动到 mid + 1。
- 如果 arr[mid] > target，说明目标值可能在左半部分，将 right 移动到 mid - 1。
退出条件：如果 left 超过了 right，说明数组中没有目标元素，返回 -1。

时间复杂度与空间复杂度分析：

时间复杂度：O(log n)，每次查找将问题的规模减少一半，因此时间复杂度为对数级别。
空间复杂度：O(1)，使用常数空间，只需要几个额外的变量（left、right 和 mid）来存储指针，没有使用额外的空间。

Java 完整代码实现：

public class BinarySearch {

    // 二分查找函数
    public static int binarySearch(int[] arr, int target) {
        int left = 0;
        int right = arr.length - 1;

        // 进行二分查找
        while (left <= right) {
            // 计算中间索引
            int mid = left + (right - left) / 2;

            // 检查中间元素是否为目标值
            if (arr[mid] == target) {
                return mid; // 找到目标，返回其索引
            }

            // 如果目标值大于中间元素，则调整搜索范围为右半部分
            if (arr[mid] < target) {
                left = mid + 1;
            }
            // 如果目标值小于中间元素，则调整搜索范围为左半部分
            else {
                right = mid - 1;
            }
        }

        // 目标值不存在于数组中，返回 -1
        return -1;
    }

    // 主函数，用于测试
    public static void main(String[] args) {
        int[] arr = {1, 3, 5, 7, 9, 11, 13, 15, 17, 19};
        int target = 7;
        
        // 调用二分查找方法
        int result = binarySearch(arr, target);
        
        if (result != -1) {
            System.out.println("目标元素 " + target + " 在数组中的索引是: " + result);
        } else {
            System.out.println("目标元素 " + target + " 不在数组中");
        }
    }
}

代码解释：

binarySearch 方法：接收一个有序整数数组 arr 和一个目标值 target。通过不断调整左右指针，最终找到目标值并返回其索引。如果没有找到目标元素，则返回 -1。
main 方法：用于测试 binarySearch 方法。数组 arr 是已排序的，target 是我们要查找的目标值。

样例输出：

目标元素 7 在数组中的索引是: 3

作者 east

Java 12月 22,2024

大厂面试手撕面试题:数组的全排列（亲测可用的java实现)

在面试中，关于数组的全排列问题是一个经典的考察题目，能够检验候选人的递归思维、回溯算法的理解和实现能力。

思路：

要获取一个数组的全排列，我们可以利用回溯算法。具体来说，回溯算法通过递归的方式逐步生成排列，在每一步都将一个元素加入排列中，然后在下一步递归中排除已选元素，回溯的时候撤销选择，尝试其他可能。

步骤：

递归生成排列：
- 使用一个辅助数组来记录当前的排列。
- 对于每个位置，我们尝试填充每一个可能的元素，并递归地填充后续的位置。
- 使用回溯的方式，在完成一个排列后，撤回当前选择，继续尝试其他可能性。
交换元素：
- 通过交换数组中的元素来生成排列，而不是额外使用空间存储状态。这样可以减少空间复杂度。

时间复杂度：

生成全排列的时间复杂度是 O(n!)，因为每个元素都需要和其他元素交换一遍，排列的总数为 n!。

空间复杂度：

空间复杂度是 O(n)，因为递归调用栈的深度是 n（每次递归深度为数组的长度），且我们只需要常数空间来交换数组元素。

Java 代码实现：

import java.util.ArrayList;
import java.util.List;

public class Permutations {

    // 主函数，返回所有的全排列
    public List<List<Integer>> permute(int[] nums) {
        List<List<Integer>> result = new ArrayList<>();
        backtrack(nums, new ArrayList<>(), result, new boolean[nums.length]);
        return result;
    }

    // 回溯函数，生成排列
    private void backtrack(int[] nums, List<Integer> current, List<List<Integer>> result, boolean[] used) {
        // 当当前排列的长度等于nums的长度时，说明找到了一个全排列
        if (current.size() == nums.length) {
            result.add(new ArrayList<>(current));
            return;
        }

        // 遍历nums数组中的每个元素
        for (int i = 0; i < nums.length; i++) {
            // 如果该元素已经被使用过，则跳过
            if (used[i]) continue;

            // 做选择，标记当前元素为已使用
            used[i] = true;
            current.add(nums[i]);

            // 递归生成剩余的排列
            backtrack(nums, current, result, used);

            // 撤销选择，回溯
            used[i] = false;
            current.remove(current.size() - 1);
        }
    }

    // 测试主函数
    public static void main(String[] args) {
        Permutations solution = new Permutations();
        int[] nums = {1, 2, 3};
        List<List<Integer>> result = solution.permute(nums);

        // 打印结果
        for (List<Integer> perm : result) {
            System.out.println(perm);
        }
    }
}

代码解析：

主函数 permute(int[] nums)：
- 该函数会返回所有的全排列。我们初始化一个空的 result 列表，并调用 backtrack 函数来生成排列。
回溯函数 backtrack(int[] nums, List<Integer> current, List<List<Integer>> result, boolean[] used)：
- current 存储当前的排列结果。
- used 数组记录每个元素是否已经被选择过。
- 每次递归，我们将一个没有被使用的元素添加到 current 中，并在递归完成后回溯，撤销当前选择。
时间复杂度和空间复杂度：
- 时间复杂度：O(n!)，因为要生成n个元素的所有排列，总共有n!个排列，每个排列需要O(n)的时间来生成。
- 空间复杂度：O(n)，递归调用栈深度最大为n。

测试示例：

对于输入 nums = [1, 2, 3]，输出应为：

[1, 2, 3]
[1, 3, 2]
[2, 1, 3]
[2, 3, 1]
[3, 1, 2]
[3, 2, 1]

作者 east

Java 12月 22,2024

大厂面试手撕面试题:合并两个有序数组（亲测可用的java实现)

在面试中，如果遇到要求合并两个有序数组的问题，可以通过以下步骤来实现：

思路：

双指针法：我们使用两个指针分别指向两个数组的起始位置。
比较大小：每次比较两个数组当前指针指向的元素，将较小的元素加入到结果数组中，并移动对应的指针。
处理剩余元素：当其中一个数组的所有元素都被合并到结果数组中时，另一个数组剩余的元素直接追加到结果数组中。

关键点：

如果两个数组的长度分别为 n 和 m，那么合并的时间复杂度是 O(n + m)，因为每个元素只会被处理一次。
空间复杂度是 O(n + m)，因为我们需要一个新的数组来存储结果。

时间复杂度：

时间复杂度：O(n + m)，其中 n 和 m 分别是两个数组的长度。我们需要遍历两个数组的每个元素一次。

空间复杂度：

空间复杂度：O(n + m)，因为我们需要一个新的数组来存储合并后的结果。

Java代码实现：

public class MergeSortedArrays {
    
    // 合并两个有序数组
    public static int[] merge(int[] arr1, int[] arr2) {
        // 创建一个新数组，大小为两个数组之和
        int n = arr1.length;
        int m = arr2.length;
        int[] result = new int[n + m];
        
        int i = 0, j = 0, k = 0;
        
        // 合并两个数组，直到有一个数组遍历完
        while (i < n && j < m) {
            if (arr1[i] <= arr2[j]) {
                result[k++] = arr1[i++];
            } else {
                result[k++] = arr2[j++];
            }
        }
        
        // 将剩余元素添加到结果数组中
        while (i < n) {
            result[k++] = arr1[i++];
        }
        while (j < m) {
            result[k++] = arr2[j++];
        }
        
        return result;
    }

    public static void main(String[] args) {
        int[] arr1 = {1, 3, 5, 7};
        int[] arr2 = {2, 4, 6, 8};
        
        int[] mergedArray = merge(arr1, arr2);
        
        // 打印合并后的数组
        System.out.print("Merged array: ");
        for (int num : mergedArray) {
            System.out.print(num + " ");
        }
    }
}

解释：

我们通过 merge 方法来合并两个有序数组 arr1 和 arr2。
使用三个指针 i, j, k：
- i 用来遍历 arr1。
- j 用来遍历 arr2。
- k 用来填充合并结果数组 result。
每次比较 arr1[i] 和 arr2[j]，将较小的元素放入 result[k] 中，移动对应的指针。直到其中一个数组遍历完。
剩余未遍历完的数组直接复制到结果数组的末尾。

输出：

Merged array: 1 2 3 4 5 6 7 8

作者 east

Java 12月 22,2024

大厂面试手撕面试题:求一个字符串中最长不重复子串的长度（亲测可用的java实现)

这是一个常见的面试题，要求找到字符串中最长的不重复子串的长度。我们可以使用 滑动窗口 和 哈希集合 的方法来有效地解决这个问题。

思路：

滑动窗口：我们通过维护一个窗口来追踪当前不重复的子串。窗口的左边和右边分别由两个指针表示，我们通过右指针来扩展窗口，左指针则会根据需要收缩窗口。
哈希集合：为了高效检查一个字符是否已经在当前窗口中，我们可以使用哈希集合来存储窗口中的字符。
当我们遇到重复字符时，左指针会移动到重复字符之后的位置，确保窗口内的字符不重复。

具体步骤：

初始化一个空的哈希集合，用于存储当前窗口内的字符。
使用两个指针：left 和 right。right 用于扩展窗口，left 用于收缩窗口。
如果当前字符（s[right]）不在哈希集合中，表示没有重复字符，将其加入集合，并更新最大长度。
如果当前字符已经在集合中，移动 left 指针，直到窗口中的字符没有重复。
每次移动 right 指针时，更新当前窗口的最大长度。

时间复杂度：

时间复杂度是 O(n)，其中 n 是字符串的长度。因为每个字符最多只会被访问两次（一次通过右指针，另一次通过左指针）。

空间复杂度：

空间复杂度是 O(min(n, m))，其中 n 是字符串的长度，m 是字符集的大小（对于英语字符集而言，m 通常是常数 256）。

Java 代码实现：

import java.util.HashSet;

public class LongestUniqueSubstring {
    public static int lengthOfLongestSubstring(String s) {
        // 用一个哈希集合来记录当前窗口内的字符
        HashSet<Character> set = new HashSet<>();
        
        int left = 0;  // 滑动窗口的左指针
        int maxLength = 0;  // 记录最长子串的长度
        
        // 遍历字符串
        for (int right = 0; right < s.length(); right++) {
            // 当右指针指向的字符已经在集合中，收缩窗口
            while (set.contains(s.charAt(right))) {
                set.remove(s.charAt(left));
                left++;
            }
            // 将当前字符加入集合
            set.add(s.charAt(right));
            // 更新最大长度
            maxLength = Math.max(maxLength, right - left + 1);
        }
        
        return maxLength;
    }

    public static void main(String[] args) {
        String s = "abcabcbb";
        System.out.println("The length of the longest substring without repeating characters is: " 
                            + lengthOfLongestSubstring(s));  // Output: 3 ("abc")
    }
}

代码解释：

set 是一个哈希集合，用来存储当前窗口中的字符。
left 是滑动窗口的左指针，right 是滑动窗口的右指针。
遍历字符串时，检查当前字符 s.charAt(right) 是否已经在窗口中。如果在，就不断移动 left 指针，直到窗口内没有重复字符。
每次更新 right 指针时，计算当前窗口的长度，更新最大长度 maxLength。

示例：

对于输入 "abcabcbb"：

经过滑动窗口的计算，最长的不重复子串为 "abc"，长度为 3。

作者 east

Java 12月 22,2024

大厂面试手撕面试题:输出 2 到 N 之间的全部素数（亲测可用的java实现)

在面试时，要求输出 2 到 N 之间的所有素数是一个经典的问题，通常会考察应聘者对算法和时间空间复杂度的理解。下面是思路的详细解释，以及 Java 代码实现。

思路

素数定义：素数是大于1的自然数，且仅能被1和自身整除。
方法选择：
- 最直接的解法是对于每个数字 i，判断它是否为素数。这个判断过程是通过检查 i 是否能被小于等于 i 的所有整数整除来完成。显然，时间复杂度较高。
- 更高效的方法是 埃拉托斯特尼筛法（Sieve of Eratosthenes）。该方法的思想是：从2开始，将所有2的倍数标记为非素数，然后依次处理3、4、5等，直到处理到 √N 为止。这个方法能够有效减少判断素数的次数。

时间复杂度和空间复杂度分析

埃拉托斯特尼筛法的时间复杂度：
- 时间复杂度是 O(N log log N)，这个复杂度是通过逐步标记每个合数来实现的，比暴力方法要高效得多。
空间复杂度：
- 空间复杂度是 O(N)，因为我们需要一个大小为 N 的布尔数组来存储每个数是否是素数。

Java 实现（埃拉托斯特尼筛法）

import java.util.ArrayList;
import java.util.List;

public class PrimeNumbers {

    // 埃拉托斯特尼筛法：输出2到N之间的素数
    public static List<Integer> sieveOfEratosthenes(int N) {
        // 布尔数组，true表示该数是素数，false表示该数不是素数
        boolean[] isPrime = new boolean[N + 1];
        
        // 初始时，所有数字都假设为素数
        for (int i = 2; i <= N; i++) {
            isPrime[i] = true;
        }
        
        // 从2开始，标记所有合数
        for (int i = 2; i * i <= N; i++) {
            if (isPrime[i]) {
                // 如果i是素数，将i的所有倍数标记为非素数
                for (int j = i * i; j <= N; j += i) {
                    isPrime[j] = false;
                }
            }
        }
        
        // 收集所有素数
        List<Integer> primes = new ArrayList<>();
        for (int i = 2; i <= N; i++) {
            if (isPrime[i]) {
                primes.add(i);
            }
        }
        
        return primes;
    }

    public static void main(String[] args) {
        int N = 50; // 可以根据需要修改N的值
        List<Integer> primes = sieveOfEratosthenes(N);
        
        // 输出素数
        System.out.println("2到" + N + "之间的素数：");
        for (int prime : primes) {
            System.out.print(prime + " ");
        }
    }
}

代码解释

布尔数组 isPrime[]：用于记录每个数字是否为素数，初始化时假设所有数字都为素数，之后逐步筛选。
筛法核心：
- 从 i = 2 开始，如果 i 是素数，则将 i 的所有倍数标记为非素数。注意，i 的倍数可以从 i*i 开始，因为 i 的更小的倍数（例如 2*i）已经在之前的步骤中被处理过。
收集素数：遍历 isPrime[] 数组，所有值为 true 的位置对应的数字是素数，将它们加入结果列表 primes。

输出结果

如果 N = 50，输出的素数会是：

Copy Code2到50之间的素数：
2 3 5 7 11 13 17 19 23 29 31 37 41 43 47

作者 east

Java 12月 22,2024

大厂面试手撕面试题:合并两个有序链表（亲测可用的java实现)

在面试中，合并两个有序链表的题目是非常常见的。这个问题的关键是利用两个链表的有序性来高效地合并它们。

思路：

初始化两个指针：
- 一个指针指向链表A的头节点，另一个指针指向链表B的头节点。
比较两个指针所指向的节点值：
- 比较当前两个节点的值，将较小的节点添加到新的链表中。
- 然后，移动对应指针到下一个节点，继续比较。
处理剩余的部分：
- 当其中一个链表的节点全部合并到新链表后，直接将另一个链表的剩余部分连接到新链表上。
返回结果：
- 合并完成后返回新链表的头节点。

时间复杂度：

每个链表的节点都需要访问一次，时间复杂度为 �(�+�)O(n+m)，其中 �n 和 �m 分别是两个链表的长度。

空间复杂度：

空间复杂度为 �(1)O(1)，因为我们是在原地合并链表，没有使用额外的空间（除了新链表的头节点指针）。

Java代码实现：

// Definition for singly-linked list.
class ListNode {
    int val;
    ListNode next;
    ListNode(int x) { val = x; }
}

public class Solution {
    public ListNode mergeTwoLists(ListNode l1, ListNode l2) {
        // 创建一个虚拟头节点，简化处理
        ListNode dummy = new ListNode(0);
        ListNode current = dummy;
        
        // 遍历两个链表
        while (l1 != null && l2 != null) {
            if (l1.val <= l2.val) {
                current.next = l1;
                l1 = l1.next;
            } else {
                current.next = l2;
                l2 = l2.next;
            }
            current = current.next;
        }
        
        // 如果有一个链表还剩余节点，直接连接到合并链表的尾部
        if (l1 != null) {
            current.next = l1;
        } else if (l2 != null) {
            current.next = l2;
        }
        
        // 返回合并后的链表，跳过虚拟头节点
        return dummy.next;
    }
}

代码解析：

ListNode类： 这是链表节点的定义，每个节点包含一个整数值和一个指向下一个节点的指针。
mergeTwoLists方法：
- dummy 是一个虚拟的头节点，它用于简化处理过程，最终返回合并后的链表。
- current 用来追踪合并链表的最后一个节点。
- 在 while 循环中，比较 l1 和 l2 的当前节点，选择较小的节点并将其加入到合并链表中。然后，继续移动指针。
- 当一个链表结束时，直接将另一个链表剩余的部分连接到合并链表。
返回结果： 最后返回 dummy.next，这是合并后的链表的头节点。

作者 east

Java 12月 22,2024

大厂面试手撕面试题:字符串的全排列（要求去重）（java实现)

在面试中，字符串的全排列问题是一个经典的面试题，要求生成一个字符串的所有全排列，且去重。这个问题可以通过回溯法（Backtracking）来实现，同时利用一个 HashSet 来避免重复的排列。下面我会详细说明思路、时间复杂度和空间复杂度，并给出完整的 Java 代码。

1. 问题理解

给定一个字符串，要求输出该字符串的所有可能的排列（排列需要去重），并且考虑到字符串可能包含重复字符，结果中的排列也应该去重。

2. 思路分析

使用回溯法生成所有可能的排列。回溯法的核心思想是递归地交换字符，在每一层递归中交换一个字符到当前位置，并继续处理剩下的部分。为了避免重复的排列，可以在递归过程中使用一个 HashSet 来记录已经生成的排列。

步骤：

排序：首先对字符串进行排序，可以帮助我们提前跳过重复字符。例如，如果字符串是 “AAB”，排序后是 “AAB”，这样我们可以确保在递归过程中只处理一遍相同的字符。
回溯法生成排列：在递归中，每次交换一个字符到当前位置，然后递归处理剩余部分。
- 在交换字符时，检查该字符是否已经在当前位置的前面出现过，如果出现过则跳过。
去重：为了避免重复的排列结果，我们可以使用一个 HashSet 来记录所有已生成的排列（字符串形式）。

3. 时间复杂度和空间复杂度

时间复杂度：生成排列的总数是 n!，其中 n 是字符串的长度。每次递归交换的时间复杂度是 O(n)，因此总体时间复杂度为 O(n * n!)。
空间复杂度：空间复杂度主要由递归栈和存储结果的集合组成。递归栈的深度最大为 n，存储结果的集合最多保存 n! 个排列，因此空间复杂度为 O(n * n!)。

4. Java代码实现

import java.util.*;

public class Solution {
    public List<String> permuteUnique(String s) {
        // 用一个列表保存结果
        List<String> result = new ArrayList<>();
        // 将字符串转换为字符数组并排序，排序后有助于去重
        char[] chars = s.toCharArray();
        Arrays.sort(chars);
        
        // 结果集合，用来存储去重后的排列
        Set<String> set = new HashSet<>();
        
        // 通过回溯法生成排列
        backtrack(chars, 0, result, set);
        
        // 将集合转换为列表返回
        return new ArrayList<>(set);
    }

    private void backtrack(char[] chars, int index, List<String> result, Set<String> set) {
        // 当到达字符数组的最后一位时，生成一个排列
        if (index == chars.length) {
            String permutation = new String(chars);
            set.add(permutation);  // 将当前排列加入结果集合
            return;
        }

        // 遍历每个字符
        for (int i = index; i < chars.length; i++) {
            // 如果当前字符和前一个字符相同，跳过（避免重复排列）
            if (i > index && chars[i] == chars[i - 1]) {
                continue;
            }
            // 交换字符
            swap(chars, i, index);
            // 递归处理
            backtrack(chars, index + 1, result, set);
            // 回溯，恢复交换前的状态
            swap(chars, i, index);
        }
    }

    // 辅助函数：交换字符数组中的两个字符
    private void swap(char[] chars, int i, int j) {
        char temp = chars[i];
        chars[i] = chars[j];
        chars[j] = temp;
    }

    public static void main(String[] args) {
        Solution solution = new Solution();
        String s = "AAB";
        List<String> result = solution.permuteUnique(s);
        for (String str : result) {
            System.out.println(str);
        }
    }
}

5. 解释代码

permuteUnique 方法：首先将输入字符串转换为字符数组，并对字符数组进行排序。然后调用回溯方法 backtrack 来生成所有的排列。
backtrack 方法：这是回溯法的核心部分。在每一层递归中，遍历当前位置后面的所有字符，交换并递归处理。
swap 方法：用于交换字符数组中的两个字符。
去重：通过 Set 来存储所有排列，确保没有重复的排列结果。

6. 举例说明

对于输入字符串 "AAB"：

排序后得到 ['A', 'A', 'B']。
通过回溯法生成所有排列并使用 HashSet 去重，最终得到 [ "AAB", "ABA", "BAA" ]。

7. 测试

在 main 方法中，我们测试了输入 "AAB"，并打印了结果。你可以替换 s 的值来测试其他输入。

8. 总结

这道题通过回溯法可以有效生成所有排列，并且通过排序和 Set 来保证去重。时间复杂度是 O(n * n!)，空间复杂度是 O(n * n!)，适合用来处理字符串全排列的相关问题。

作者 east

Java 12月 22,2024

大厂面试手撕面试题:单链表反转（java实现)

单链表反转是常见的面试题目之一，下面是关于如何反转一个单链表的思路、时间和空间复杂度分析以及完整的 Java 代码实现。

思路

单链表反转的关键在于改变每个节点的指向，使得原来指向下一个节点的指针指向前一个节点。为了做到这一点，我们可以通过迭代的方式来逐个调整节点的指针。

具体步骤：

初始化三个指针：
- prev：指向前一个节点，初始化为 null。
- curr：指向当前节点，初始化为链表的头节点。
- next：指向当前节点的下一个节点，初始化为 null。
遍历链表：
- 每次保存 curr 的下一个节点 (next = curr.next)。
- 将当前节点的 next 指向 prev（反转指向）。
- 将 prev 移动到 curr，将 curr 移动到 next，继续遍历。
完成遍历后，prev 会指向新链表的头节点。

时间复杂度

时间复杂度：O(n)，其中 n 是链表的长度。我们需要遍历一次整个链表。
空间复杂度：O(1)，我们只用了常数空间来存储指针，不需要额外的空间。

Java 完整代码实现

public class Solution {

    // 定义链表节点
    static class ListNode {
        int val;
        ListNode next;
        
        ListNode(int val) {
            this.val = val;
            this.next = null;
        }
    }

    // 反转链表的函数
    public static ListNode reverseList(ListNode head) {
        ListNode prev = null;  // 初始化前一个节点为null
        ListNode curr = head;  // 当前节点从头节点开始
        
        while (curr != null) {
            ListNode next = curr.next;  // 保存下一个节点
            curr.next = prev;  // 反转当前节点的指针
            prev = curr;  // 前一个节点移动到当前节点
            curr = next;  // 当前节点移动到下一个节点
        }
        
        return prev;  // prev最终会是新的头节点
    }

    // 打印链表的辅助函数
    public static void printList(ListNode head) {
        ListNode curr = head;
        while (curr != null) {
            System.out.print(curr.val + " -> ");
            curr = curr.next;
        }
        System.out.println("null");
    }

    public static void main(String[] args) {
        // 创建一个链表：1 -> 2 -> 3 -> 4 -> 5 -> null
        ListNode head = new ListNode(1);
        head.next = new ListNode(2);
        head.next.next = new ListNode(3);
        head.next.next.next = new ListNode(4);
        head.next.next.next.next = new ListNode(5);
        
        // 打印原链表
        System.out.println("Original list:");
        printList(head);
        
        // 反转链表
        ListNode reversedHead = reverseList(head);
        
        // 打印反转后的链表
        System.out.println("Reversed list:");
        printList(reversedHead);
    }
}

代码解析：

ListNode 类：定义了一个链表节点，每个节点包含一个整数值 val 和指向下一个节点的指针 next。
reverseList 方法：用于反转链表。通过 prev、curr 和 next 三个指针来实现链表的反转。
printList 方法：用于打印链表，用来测试链表是否正确反转。
main 方法：在 main 方法中，创建一个示例链表，反转它并打印反转前后的链表。

测试示例：

输入链表：
1 -> 2 -> 3 -> 4 -> 5 -> null

输出链表：
5 -> 4 -> 3 -> 2 -> 1 -> null

总结：

时间复杂度：O(n) —— 需要遍历一次链表。
空间复杂度：O(1) —— 只使用了常量级别的额外空间。

这个问题考察了基本的链表操作和指针的使用，掌握这个技巧对于后续涉及链表的题目有很大帮助。

作者 east

tdengine 12月 12,2024

TDEngine 删除数据解决”The DELETE statement must have a definite time window range”

用DBeaver生成Delete语句

DELETE FROM iotdb.car
WHERE ts = ‘2024-08-31 07:21:14.000’ AND val = 200.0

执行后报错：The DELETE statement must have a definite time window range

以为是要加时间范围。修改成

DELETE FROM iotdb.car
WHERE ts > ‘2024-08-31 07:21:13.000’ AND
ts > ‘2024-08-31 07:21:14.000 AND val = 200.0

还是报同样的错误，以为是时间范围太大还是太小，进行各种修改时间范围还是报错依旧。

看了官方文档说明：

0x80002655

The DELETE statement must have a definite time window range

DELETE语句中存在非法WHERE条件

检查并修正SQL语句

结果官方示例，修改为：

DELETE FROM iotdb.car
WHERE ts = ‘2024-08-31 07:21:14.000’

果然执行成功了。TDEngine还是有些和Mysql有些不同，现在用的
DBeaver 进行删除行也是报错，用DBeaver生成的sql有时是存在问题。还是要结合官方文档进行判断。

作者 east

Hive, Spark 11月 1,2024

Hive或Spark数据抽样技术详解

抽样的重要性

在离线数仓开发中，抽样技术扮演着至关重要的角色，其重要性主要体现在以下几个方面:

提升查询性能

抽样技术能够显著提高复杂查询的执行效率。通过从大规模数据集中提取代表性样本，可以在短时间内获得接近真实结果的估算值，大大缩短查询响应时间。这在处理海量数据时尤为重要，尤其是在需要频繁执行复杂分析查询的场景中。例如，假设有一个包含数十亿条记录的订单表，通过抽样技术，我们可以在几分钟内获得订单金额分布的概览，而不必等待全表扫描的漫长过程。

优化查询执行计划

抽样数据可以帮助查询优化器更准确地估计查询成本，从而选择更有效的执行计划。这对于处理大规模数据集的查询尤为重要，可以显著提高查询效率。例如，通过分析抽样数据，查询优化器可以更准确地估计连接操作的成本，从而选择更适合的连接算法和顺序。

数据质量验证

抽样技术在数据质量验证方面发挥着重要作用。通过对样本数据进行检查，可以快速发现潜在的数据质量问题，如异常值、缺失值或不符合预期的数据分布等。这有助于及时发现和修复数据问题，确保数据仓库中存储的数据质量和一致性。例如，可以通过抽样检查来验证数据转换规则的正确性，或者监测数据分布的变化趋势，从而及时发现潜在的数据质量问题。

方便进行初步的数据探索和分析

抽样技术允许分析师在处理完整数据集之前，快速查看和分析一小部分数据，从而更快地理解数据的整体特征和分布情况。这有助于快速形成初步的分析假设和方向，为后续的深入分析奠定基础。例如，通过抽样分析，分析师可以快速识别数据中的主要类别、异常值或有趣的数据模式，从而指导后续的分析工作重点。

减少计算资源消耗

抽样技术可以显著降低计算资源的消耗。通过处理较小的样本数据集，可以减少CPU、内存和网络带宽的使用，从而提高整体系统的处理能力。这对于处理大规模数据集尤其有益，可以使有限的计算资源得到更有效的利用。例如，在进行大规模数据聚合操作时，可以先对数据进行抽样，然后再进行聚合计算，这样不仅可以提高计算速度，还能减少内存占用。

加速数据处理和分析流程

抽样技术可以加速整个数据处理和分析流程。通过使用样本数据，可以在较短的时间内完成初步的数据探索和分析，从而更快地迭代分析过程，提高工作效率。这对于需要快速响应业务需求的场景尤为重要，可以显著缩短从数据收集到洞察产出的时间周期。例如，在进行市场趋势分析时，可以通过抽样快速获取市场概况，然后再根据需要逐步扩大分析范围，既提高了效率，又保证了分析的深度和广度。

常用抽样方法

在离线数仓开发中，抽样技术是一项关键工具，能够帮助我们在处理大规模数据集时提高效率和准确性。本节将详细介绍两种广泛应用的抽样方法：随机抽样和系统抽样，并讨论它们在不同场景下的适用性。

随机抽样

随机抽样 是最基本且最直观的抽样方法。它确保总体中的每个个体都有同等被选中的机会。随机抽样的核心优势在于其简单性和灵活性，适用于大多数情况。然而，当总体规模庞大时，实施随机抽样可能面临挑战。

系统抽样

系统抽样 则提供了一种更高效的选择。这种方法通过固定间隔从总体中选择样本，特别适合处理大规模数据集。系统抽样的步骤如下：

确定总体大小N
计算抽样间隔k = N / n（n为样本大小）
随机选择起始点
按照固定间隔k选择样本

系统抽样的优势在于其实施简单且成本较低。然而，如果总体存在某种周期性或规律性，系统抽样可能产生偏差。例如，在客户满意度调查中，如果数据按日期排序，系统抽样可能无意中选择同一时间段的样本，影响结果的代表性。

分层抽样

分层抽样 是另一种值得关注的方法。它首先将总体按特定特征分成若干层，然后从各层中随机抽取样本。这种方法特别适用于需要确保各子群体代表性的情况。分层抽样的优势在于可以提高样本的代表性，减少抽样误差，特别适合于数据分布不均匀的场景。

整群抽样

整群抽样 则是将总体划分为若干个群，然后随机选择部分群作为样本。这种方法在地理分布广泛的数据集中尤为有效，可以显著降低成本。然而，整群抽样可能引入更大的抽样误差，特别是当群内差异较大时。

在选择适当的抽样方法时，需要综合考虑以下因素：

总体特征 ：数据分布、结构和规模
研究目的 ：所需精度、代表性要求
资源限制 ：时间和成本约束
可行性 ：实施难度和技术要求

通过合理选择和应用这些抽样方法，我们可以在离线数仓开发中实现数据处理的效率提升和资源优化，同时保证分析结果的准确性和代表性。

TABLESAMPLE语句

在Hive中， TABLESAMPLE语句 是一种强大的工具，用于从大型数据集中抽取代表性样本。这个功能在处理海量数据时尤为重要，因为它允许用户快速获取数据的概览，而无需扫描整个表。

TABLESAMPLE语句的主要语法形式如下：

SELECT * FROM <table_name>
TABLESAMPLE(BUCKET x OUT OF y [ON colname])

在这个语法中：

BUCKET x OUT OF y ：指定从y个桶中选择第x个桶的数据
ON colname ：指定用于确定桶分配的列

值得注意的是，colname可以是一个具体的列名，也可以是 rand()函数 ，表示对整行进行抽样。例如：

SELECT * FROM source
TABLESAMPLE(BUCKET 3 OUT OF 32 ON rand())

这个查询将从source表的32个桶中选择第3个桶的数据。

TABLESAMPLE的一个关键特点是它的 灵活性 。它可以根据不同的需求选择不同数量的桶。例如：

TABLESAMPLE(BUCKET 3 OUT OF 16 ON id)

这个查询将从16个桶中选择第3个和第19个桶的数据，因为每个桶实际上由2个簇组成。

此外，Hive还支持 块抽样 功能，允许用户根据数据大小的百分比或具体字节数进行抽样：

SELECT * FROM source
TABLESAMPLE(0.1 PERCENT)

这个查询将抽取表数据大小的0.1%，但请注意，由于HDFS块级别的抽样，实际返回的数据可能会大于指定的百分比。

Hive的TABLESAMPLE语句不仅提高了查询效率，还为数据分析师提供了一个快速评估数据质量的强大工具。通过合理使用这个功能，用户可以在处理大规模数据集时节省大量时间和计算资源，同时保持结果的代表性和准确性。

分桶表抽样

在Hive中，分桶表是一种高级的数据组织方式，旨在提高大规模数据集的处理效率。这种技术通过将数据按照特定列的哈希值进行分组，实现了更精细的数据划分，从而优化了查询性能和抽样操作。

分桶表的基本原理是：

对指定列的值进行哈希运算
使用哈希值除以桶的总数进行取余
得到的结果决定了每条记录所属的具体桶

这种方法确保了相似值的数据会被分散到不同的桶中，从而减少了数据倾斜的问题。

在创建分桶表时，我们需要指定分桶列和桶的数量。例如：

CREATE TABLE bucketed_table (
    id INT,
    name STRING
) CLUSTERED BY (id) INTO 4 BUCKETS;

这段代码创建了一个名为bucketed_table的分桶表，使用id列进行分桶，并将其划分为4个桶。

分桶表的一个关键优势是在进行抽样查询时的高效性。Hive提供了专门的TABLESAMPLE语句来实现这一功能：

SELECT * FROM bucketed_table TABLESAMPLE(BUCKET 1 OUT OF 4);

这个查询将从4个桶中选择第1个桶的数据。这里的OUT OF后面的数字必须是总桶数的倍数或因子，Hive会根据这个值来决定抽样的比例。

分桶表抽样的一个重要特点是其灵活性。它可以与其他查询操作结合使用，如：

SELECT COUNT(*) FROM bucketed_table TABLESAMPLE(BUCKET 1 OUT OF 4) WHERE age > 30;

这个查询展示了如何在抽样数据的基础上进行进一步的筛选和聚合操作。

通过合理使用分桶表抽样技术，我们可以在处理大规模数据集时实现高效的查询和分析，同时保证结果的代表性和准确性。这种方法不仅提高了查询性能，还为数据分析师提供了一种快速评估数据质量的有效途径。

sample()函数

在Spark中，sample()函数是处理大规模数据集时的一项强大工具。它允许开发者从RDD或DataFrame中抽取代表性样本，从而在处理海量数据时提高效率并减少计算资源的消耗。

sample()函数的基本语法如下：

sample(withReplacement: Boolean, fraction: Double, seed: Long = 0)

其中：

参数	类型	描述
withReplacement	Boolean	是否允许重复抽样
fraction	Double	抽样的比例（0-1之间）
seed	Long	随机数生成器的种子

下面通过几个例子来详细说明sample()函数的使用方法：

基本用法

val rdd = sc.parallelize(1 to 1000000)

// 抽取10%的样本，不放回
val sampleRdd = rdd.sample(false, 0.1)

println(sampleRdd.count())  // 输出约100000

使用随机种子

val sampleRddWithSeed = rdd.sample(false, 0.1, 123L)

// 使用相同种子将得到相同结果
println(sampleRddWithSeed.count())  // 输出约100000

DataFrame中的使用

import spark.implicits._

val df = Seq(("Alice", 34), ("Bob", 28), ("Charlie", 45)).toDF("Name", "Age")

// 抽取50%的样本
val sampleDf = df.sample(0.5)

sampleDf.show()

分层抽样

val df = Seq(("Alice", "Female"), ("Bob", "Male"), ("Charlie", "Male")).toDF("Name", "Gender")

val stratifiedSample = df.stat.sampleBy("Gender", Map("Female" -> 0.5, "Male" -> 0.3))

stratifiedSample.show()

通过灵活运用sample()函数，开发者可以在处理大规模数据集时实现高效的抽样操作，从而优化查询性能、减少计算资源消耗，并在数据探索和分析过程中获得有价值的见解。这种方法特别适用于需要快速了解数据整体分布或进行初步数据分析的场景。

takeSample()方法

在Spark中，takeSample()方法是处理大规模数据集时的一种高效抽样工具。它允许开发者从RDD或DataFrame中抽取代表性样本，特别适用于需要快速获取数据概览或进行初步分析的场景。

takeSample()方法的基本语法如下：

takeSample(withReplacement: Boolean, num: Int, seed: Long = 0)

其中：

withReplacement ：是否允许重复抽样
num ：抽样的样本数量
seed ：随机数生成器的种子（可选）

takeSample()方法的一个关键特点是其灵活性。它可以在保持分布式计算优势的同时，提供精确的样本控制。这意味着开发者可以根据具体需求，精确控制抽样数量和重复性，同时充分利用Spark的并行处理能力。

在实际应用中，takeSample()方法常用于以下场景：

数据预览 ：快速查看大型数据集的结构和分布
性能测试 ：使用小规模样本评估复杂查询的执行计划
数据质量检查 ：抽样验证数据清洗和转换的正确性
模型训练 ：从大规模数据集中抽取适量样本用于机器学习模型训练

例如，假设我们有一个包含百万级用户评论的大数据集，我们可以使用takeSample()方法快速获取1000条评论样本进行初步分析：

val commentsRDD = sc.textFile("hdfs://path/to/comments")
val sampleComments = commentsRDD.takeSample(false, 1000)

这种方法不仅速度快，还能保证样本的代表性，为后续的深入分析提供基础。

值得注意的是，takeSample()方法在处理非常大规模的数据集时可能会遇到性能瓶颈。在这种情况下，可以考虑结合其他抽样技术，如分层抽样或系统抽样，以平衡效率和代表性。

查询性能优化

在离线数仓开发中，抽样数据技术不仅能提高查询速度，还可优化复杂查询的执行计划。通过分析抽样数据，查询优化器能更准确地估计查询成本，从而选择更有效的执行策略。例如，抽样数据可帮助判断是否采用索引扫描而非全表扫描，或在连接操作中选择合适的连接算法和顺序。这种方法特别适用于处理大规模数据集的复杂查询，能在保证查询结果准确性的同时，显著提升查询效率。

数据质量验证

在ETL过程中，抽样数据是验证数据质量的关键方法之一。通过分析代表性样本，可以快速识别潜在的数据质量问题，如异常值、缺失值或不符合预期的数据分布。这种方法不仅提高了数据质量检查的效率，还降低了计算资源的消耗。具体而言，可以使用以下几种抽样技术来进行数据质量验证：

随机抽样 ：从数据集中随机选择一定比例的记录进行检查。
系统抽样 ：按照固定的间隔从数据集中选择样本。
分层抽样 ：将数据集按特定属性分层，然后从各层中抽取样本。

这些方法可以单独使用或组合应用，以适应不同的数据特征和质量要求。通过合理运用抽样技术，可以在保证数据质量的同时，显著提高ETL过程的效率和可靠性。

作者 east