达梦数据库之分区表详解

0. 前言

近期有幸参加了达梦数据库的DCA和DCP培训，培训课程丰富有趣、干货满满。在DCP课程中，关于分区表的部分印象深刻，课后仔细查询资料（包括达梦数据库管理员手册和网上的概念解读）进一步了解。将学习的内容记录如下，希望对各位达梦数据库爱好者有所帮助。

1. 分区表的概念

分区表是将一个逻辑表按照特定的规则（如范围、列表、哈希等）划分成多个物理分区的表结构。每个分区在物理上可以独立存储，就好像是多个独立的子表，但在逻辑上它们仍然构成一个完整的表。这种划分方式使得数据库在处理数据时能够更有针对性地操作各个分区，而不是对整个大表进行全表扫描或操作，从而提升性能。

例如，对于一个包含多年销售数据的销售记录表，如果按照年份进行分区，那么在查询某一年的销售数据时，数据库引擎只需扫描对应年份的分区，而无需遍历整个表的数据，大大减少了数据读取量和查询时间。

2. 分区表的类型

2.1 范围分区

范围分区是根据表中某个列的值的范围来划分分区。例如，可以按照日期列将数据划分为不同时间段的分区，如每月一个分区或每年一个分区。
语法示例：

CREATE TABLE sales (
  sale_id INT,
  sale_date DATE,
  amount DECIMAL(10,2)
)
PARTITION BY RANGE (sale_date) (
  PARTITION p1 VALUES LESS THAN ('2024-01-01'),
  PARTITION p2 VALUES LESS THAN ('2025-01-01'),
  PARTITION p3 VALUES LESS THAN (MAXVALUE)
);

在上述示例中，销售表sales根据sale_date列进行范围分区，分为三个分区，分别存储不同时间段的销售数据。

2.2 列表分区

列表分区是基于某个列的离散值列表来划分分区。比如，对于一个存储产品销售数据的表，可以按照销售地区进行列表分区，每个分区对应特定的地区。
语法示例：

CREATE TABLE product_sales (
  product_id INT,
  region VARCHAR(50),
  sales_amount DECIMAL(10,2)
)
PARTITION BY LIST (region) (
  PARTITION p_north VALUES ('North Region'),
  PARTITION p_south VALUES ('South Region'),
  PARTITION p_west VALUES ('West Region'),
  PARTITION p_east VALUES ('East Region')
);

这里的product_sales表根据region列的不同地区值划分成了四个列表分区。

2.3 哈希分区

哈希分区是根据一个哈希函数对指定列的值进行计算，然后根据计算结果将数据均匀分布到不同的分区中。这种分区方式适用于数据分布较为均匀且不需要按照特定范围或列表值进行划分的情况，常用于提高数据的并行处理能力。
语法示例：

CREATE TABLE user_data (
  user_id INT,
  user_name VARCHAR(50),
  user_age INT
)
PARTITION BY HASH (user_id) PARTITIONS 4;

上述代码将user_data表按照user_id列进行哈希分区，共分为 4 个分区，数据会根据哈希函数均匀分布到这 4 个分区中。

2.4 复合分区

复合分区是先按照一种分区方式（如范围分区）进行初步划分，然后在每个初步划分的分区内再按照另一种分区方式（如哈希分区或列表分区）进行进一步细分。例如，可以先按照年份进行范围分区，然后在每个年份分区内再按照地区进行列表分区。
语法示例：

CREATE TABLE sales_detail (
  sale_id INT,
  sale_date DATE,
  region VARCHAR(50),
  amount DECIMAL(10,2)
)
PARTITION BY RANGE (sale_date) SUBPARTITION BY LIST (region) (
  PARTITION p1 VALUES LESS THAN ('2024-01-01') (
    SUBPARTITION sp1_north VALUES ('North Region'),
    SUBPARTITION sp1_south VALUES ('South Region')
  ),
  PARTITION p2 VALUES LESS THAN ('2025-01-01') (
    SUBPARTITION sp2_west VALUES ('West Region'),
    SUBPARTITION sp2_east VALUES ('East Region')
  )
);

此sales_detail表先按sale_date进行范围分区，然后在每个范围分区内又按region进行列表子分区。

3. 分区表的管理

3.1 创建分区表

如上述各分区类型示例中所示，使用CREATE TABLE语句并结合PARTITION BY子句来创建分区表。在PARTITION BY子句中指定分区类型（如RANGE、LIST、HASH等）以及分区的具体定义，包括分区的边界值（对于范围分区）、分区的离散值列表（对于列表分区）或分区数量（对于哈希分区）等信息。

3### 3.2 添加分区

假设公司发展势头良好，决定增设海外市场，这样海外市场的数据就不属于此前规划的东西南北四个大区，需要新增一个海外分区。
对于范围分区和列表分区，可以使用ALTER TABLE语句添加新的分区。例如：

ALTER TABLE product_sales
ADD PARTITION p_overseas VALUES ('Overseas Region');

这将为product_sales表（列表分区表）添加一个新的分区海外分区，用于存储非东西南北四个区域的数据。

3.3 删除分区

假设公司产品不适合西部市场，长期亏损运营，公司决定退出西部市场，此后将不再存在西部市场的数据。在做好备份后，可以适当减少分区方便后续运维管理。
同样使用ALTER TABLE语句删除分区，但要注意删除分区可能会导致数据丢失。例如：

ALTER TABLE product_sales DROP PARTITION p_west;

这将删除product_sales表中名为p_west的列表分区。在删除分区之前，应该确保数据已经备份或者不再需要该分区的数据。

3.4 合并分区

对于范围分区，可以将相邻的分区进行合并。例如：

ALTER TABLE sales MERGE PARTITIONS p1, p2 INTO PARTITION p_new;

这将把sales表中的p1和p2分区合并为一个新的分区p_new。合并分区时要考虑数据的连续性和业务需求。

3.5 拆分分区

对于范围分区，可以将一个分区拆分成两个或多个分区。例如：

ALTER TABLE sales SPLIT PARTITION p3 AT ('2030-01-01') INTO (PARTITION p3a, PARTITION p3b);

这将把sales表中的p3分区在2030-07-01处拆分成p3a和p3b两个分区。

4。分区表的优势

4.1 提高查询性能

由于分区表可以将查询范围缩小到特定的分区，减少了数据扫描量，从而显著提高查询速度。特别是对于涉及大量数据的复杂查询，分区表的性能优势更加明显。例如，在一个包含数十亿条记录的数据库表中，如果不使用分区表，查询可能需要遍历整个表的数据，而使用分区表后，根据查询条件可能只需扫描一个或几个分区的数据，大大缩短了查询响应时间。

4.2 简化数据管理

分区表使得数据的维护操作（如备份、恢复、数据加载等）更加方便。可以针对单个分区进行操作，而不是对整个表进行处理。例如，在进行数据备份时，可以只备份最近一个月的分区数据，而不是整个表的数据，节省了备份时间和存储空间。同时，在数据清理方面，如删除过期数据，可以直接删除对应的分区，操作简单高效。

4.3 增强数据可用性

当某个分区出现故障时，其他分区的数据仍然可以正常访问和使用，不会影响整个表的可用性。例如，在一个分布式数据库系统中，如果一个存储节点上的某个分区数据损坏，系统可以将对该分区的访问请求路由到其他正常的分区或节点上，保证业务的连续性。