树形结构详解及实际用途

Sep 21, 2024 · 2 min read · algorithm 中文 ·

Share on:

Overview

树形结构是计算机科学中重要的数据结构，广泛用于存储、检索和排序数据。以下是常见的树结构：二叉树、红黑树、AVL树、B树和B+树。

1. 二叉树（Binary Tree）

定义：

二叉树是每个节点最多有两个子节点的树结构，通常称为左子树和右子树。

插入、查询和删除的操作逻辑：

插入：从根节点开始，按照二叉搜索树的性质，插入较小的值到左子树，较大的值到右子树，递归进行。
查询：按照与插入相同的逻辑，递归查找对应的值。
删除：删除时有三种情况：删除叶子节点、删除有一个子节点的节点、删除有两个子节点的节点。对于有两个子节点的情况，需找到右子树中的最小值来替代被删除的节点。

形态图示：

1       10
2      /  \
3     5    15
4    / \     \
5   2   7     20

应用场景：

表达式树：在编译器或解释器中，二叉树常用于解析复杂的算术表达式。每个操作符（如 +, *）是树中的内部节点，而操作数（如 3, 5）是叶子节点。编译器利用表达式树来解析并执行复杂表达式。例如表达式 (3 + (5 * 2)) 会被解析成一棵树，先执行乘法，再执行加法。通过二叉树，编译器能够确保按照正确的优先级顺序执行运算，方便表达式的解析与求值。
决策树：在机器学习中，决策树用于分类和回归模型。每个内部节点表示一个决策条件（如 "是否年龄>30"），叶子节点表示决策的结果（如 "是" 或 "否"）。通过这种结构，机器学习模型能够递归地通过多个决策条件，得出最终分类或预测结果。

2. 红黑树（Red-Black Tree）

定义：

红黑树是一种自平衡二叉搜索树，通过颜色（红色和黑色）标记来保持平衡。

插入、查询和删除的操作逻辑：

插入：红黑树首先按二叉搜索树的方式插入节点，之后会根据颜色调整和旋转操作来维持树的平衡。红色节点不能连续存在，且路径中的黑色节点数量相同。
查询：与普通二叉树一样，根据值递归查找左右子树。
删除：删除后根据颜色规则调整，通过旋转和重新着色确保红黑树保持平衡。

形态图示：

1      10(B)
2     /    \
3   5(R)  15(B)
4        /    \
5     12(R)   20(R)

应用场景：

操作系统调度器（CFS）：在 Linux 操作系统中，完全公平调度器（CFS）是调度器子系统，用来管理多个正在运行的任务。CFS 使用红黑树存储所有等待运行的任务，以任务的虚拟运行时间为关键字。调度器每次会选择虚拟运行时间最短的任务来执行，并且在执行过程中，会定期更新任务的运行时间。红黑树通过自平衡保证在众多任务中高效查找和调度任务。通过红黑树，CFS 能够在 O(log n) 时间内找到虚拟运行时间最短的任务，确保多任务系统中的公平调度和高效运行。
字典数据结构（Java TreeMap、C++ std::map 和 std::set）：红黑树被广泛用于字典（Map）和集合（Set）数据结构中，来存储有序的键值对。在 Java 中，TreeMap 的实现基于红黑树，能够在 O(log n) 的时间内完成查找、插入和删除操作。每次插入新的键值对时，TreeMap 会按键的顺序将它插入到红黑树中，并且在插入后会自动平衡树。通过这种方式，TreeMap 能够高效地存储和查询有序数据。例如，在电子商务系统中，TreeMap 可以用于存储商品的价格和商品名称，支持快速查找某个价格范围内的商品。

3. AVL树（AVL Tree）

定义：

AVL 树是一种严格自平衡的二叉搜索树，通过旋转操作保持平衡。

插入、查询和删除的操作逻辑：

插入：按照二叉搜索树的插入逻辑插入值，之后根据节点的高度调整，保持左右子树高度差不超过 1。
查询：与普通二叉搜索树相同，按值递归查找左右子树。
删除：删除后进行旋转操作，保持树的平衡性。

形态图示：

1       30
2      /  \
3    20    40
4   /  \
5  10   25

应用场景：

数据库索引（如 PostgreSQL）：AVL 树用于数据库系统的索引管理。在 PostgreSQL 中，部分索引是基于 AVL 树实现的。数据库系统需要频繁对大规模数据进行查找、插入和删除操作，AVL 树的严格平衡性使其非常适合于这种场景，能够确保索引始终平衡，从而提高查询效率。在数据库查询中，当用户进行 SELECT 查询时，系统可以快速地通过 AVL 树定位到相关数据。此外，AVL 树还用于某些非聚簇索引中，确保数据库的大量查询能够在 O(log n) 时间内完成。
字典结构：AVL 树适用于需要频繁查询和快速查找的字典结构，特别是在查询密集型场景中。与红黑树相比，AVL 树的平衡性更加严格，查找效率也略高。它能保证每个操作都在 O(log n) 时间内完成，适合用作缓存系统中的高效数据结构。

4. B树（B-Tree）

定义：

B 树是一种多路自平衡搜索树，每个节点可以存储多个键，并且具有多个子节点。

多路：每个节点可以有多个子节点，而不仅仅是两个。自平衡：通过旋转和分裂操作，保持树的平衡性。每次插入或删除后，树的高度会保持在一个较小的范围内。

插入、查询和删除的操作逻辑：

插入：当一个节点达到最大容量时，它会分裂成两个节点，父节点会存储分裂键。
查询：通过节点的键值，递归找到需要查找的子节点或叶子节点。
删除：删除时如果节点变得过小，可能需要合并或借用相邻节点的键。

形态图示：

1      [10 | 20]
2     /    |    \
3  [5]   [15]   [25]

应用场景：

数据库索引（如 MySQL InnoDB）：B 树是关系型数据库系统中常用的索引结构，特别是用于实现 MySQL InnoDB 存储引擎中的聚簇索引。B 树的节点能够存储多个键值，减少了树的高度，这在处理大数据时尤为重要。聚簇索引将实际数据存储在 B 树的叶子节点中，当用户执行查询时，数据库引擎能够快速通过索引定位数据。B 树的自平衡特性确保了即使在插入大量数据后，索引仍然能够高效工作，极大地减少了磁盘 I/O 次数，从而提升数据库的查询效率。
文件系统（如 NTFS）：在文件系统中，B 树用于管理文件的目录和文件块索引。例如，NTFS 文件系统使用 B 树来存储文件目录，当用户查找某个文件时，系统通过 B 树结构快速找到文件在磁盘中的存储位置。B 树的多路结构能够高效地管理和组织大量的文件目录，减少文件查找的时间，尤其适用于大规模存储设备。

5. B+树（B+ Tree）

定义：

B+

树是 B 树的变体，所有数据存储在叶子节点，且叶子节点通过链表相连，内部节点只存储索引。

插入、查询和删除的操作逻辑：

插入：新数据总是插入到叶子节点。如果叶子节点满，则会进行分裂，分裂的索引提升到父节点。
查询：通过索引找到叶子节点进行查询，链表连接的叶子节点支持顺序遍历和范围查询。
删除：在叶子节点进行删除，如果节点变得太小，会合并或借用相邻节点的键。

形态图示：

1        [10 | 20]
2       /    |    \
3   [5-7]  [12-15] [21-25]
4   (链表连接所有叶子节点)

应用场景：

数据库索引（如 MySQL InnoDB）：B+ 树广泛应用于 MySQL 的 InnoDB 存储引擎中，用于构建聚簇索引。与 B 树不同，B+ 树中的数据全部存储在叶子节点，叶子节点之间通过链表连接。这样的结构允许对范围查询和顺序查询进行高效处理。例如，MySQL 中执行 SELECT * FROM table WHERE id BETWEEN 10 AND 20 这样的查询时，B+ 树能够快速找到起始和结束节点，通过链表遍历中间的节点，高效完成范围查询操作。
文件系统（如 XFS）：B+ 树用于文件系统中的目录索引和数据块管理。在 XFS 文件系统中，B+ 树用于高效地管理大规模文件路径和文件数据块的位置。通过 B+ 树，文件系统能够支持高效的文件顺序查找和访问，同时链表连接的叶子节点允许快速执行顺序读取操作，适合大数据量文件的读写管理。

B+树相比B树的主要特色在于：所有数据都存储在叶子节点，内部节点只存储索引；叶子节点通过链表连接，便于顺序遍历和范围查询。这使得 B+ 树在执行顺序访问和范围查询时更高效，同时由于索引更紧凑，树的高度更低，空间利用率更高，适用于数据库索引（如 MySQL InnoDB）和文件系统（如 XFS）。

总结与对比表

树结构	特点与用途	主要应用场景
二叉树	简单的递归结构，易于实现	表达式树、决策树等，用于编译器和机器学习中的数据处理
红黑树	自平衡结构，适合频繁插入和删除	操作系统调度器（Linux CFS）、字典结构（TreeMap、std::map）
AVL树	严格平衡，查找速度快	数据库索引（如 PostgreSQL），适用于频繁查询的场景
B树	多路自平衡，减少磁盘 I/O	数据库索引（如 MySQL）、文件系统（如 NTFS）
B+树	数据存储在叶子节点，链表连接叶子节点	数据库聚簇索引（如 MySQL InnoDB）、文件系统（如 XFS）