TiDB 源码阅读系列文章（十六）INSERT 语句详解-白红宇的个人博客

发布日期：2021-05-16 17:00:14 浏览次数：10 分类：精选文章

本文共 1611 字，大约阅读时间需要 5 分钟。

INSERT 语句在 TiDB 中的深入探讨

在数据库系统中，INSERT 语句是数据操作中最常用且最基础的语句。然而，TiDB 引入了多种高级插入选项，如 INSERT IGNORE、INSERT ON DUPLICATE KEY UPDATE 等，这使得 INSERT 语句在功能和行为上更加多样化。本文将详细分析 TiDB 中的 INSERT 语句及其实现，以帮助开发者更好地理解和使用这些高级功能。

INSERT 语句的分类

从功能上看，TiDB 提供了六种不同的 INSERT 语句：

Basic INSERT: 最普通的插入语句，无特殊处理冲突的情况。

INSERT IGNORE: 插入记录时若发生唯一约束冲突，忽略当前记录，不报错。

INSERT ON DUPLICATE KEY UPDATE: 插入记录时若发生冲突，更新冲突的记录。

INSERT IGNORE ON DUPLICATE KEY UPDATE: 插入记录时若发生冲突，先尝试更新记录，若继续冲突则忽略当前记录。

REPLACE: 删除所有冲突记录后再插入新的记录，确保所有冲突处理后才能提交。

LOAD DATA: 从外部数据文件加载数据，处理冲突方式与 INSERT IGNORE 相同。

基本插入语法

TiDB 的 Basic INSERT 语法与其他数据库类似，语法为：

INSERT INTO table_name (columns) VALUES (values);

在执行过程中，TiDB 会缓存数据到内存中，待事务提交时，通过批量检测（使用 BatchGet 接口）检查冲突情况。如果所有插入都成功，数据将被持久化到存储引擎（TiKV）。

INSERT IGNORE 语句

INSERT IGNORE 语句的主要作用是提供一个优雅的处理方式，无论是插入单行还是多行数据，都能在不影响整体事务的前提下，忽略冲突的记录，并记录相关的警告信息。

在实现中，当有多个插入操作时，TiDB 会首先读取所有可能冲突的记录，保存到内存中。然后逐行处理，遇到冲突时，生成warning，并继续下一行的插入操作。这种方式避免了在每一步都进行复杂的冲突检测，从而提高了性能。

INSERT ON DUPLICATE KEY UPDATE 语句

该语句允许在插入时遇到唯一约束冲突的情况下，自动执行更新操作。这种功能对于需要在插入时维护数据一致性的场景非常有用。

在 TiDB 中，执行该语句时，首先会读取所有可能冲突的记录，保存到内存中。然后，逐行处理插入数据。在遇到冲突时，更新对应的记录，若更新后的记录仍然存在冲突，则根据配置选项决定是否报错或继续处理。通过这种方式，TiDB 保证了插入和更新操作的原子性。

REPLACE 语句

REPLACE 语句的独特之处在于它允许一次插入操作删除多个冲突记录，并在所有冲突记录被处理后，再插入新的记录。这种操作尤其适用于需要批量清理旧数据并插入新数据的场景。

在实现中，TiDB 会首先读取所有与待插入记录冲突的记录。然后，按照批量处理的方式，删除这些记录。最后，将新的数据插入到表中。如果插入时再次发生冲突，TiDB 会继续处理冲突记录，直到所有冲突都被处理或错满足条件后才允许事务提交。

写在最后

通过对 TiDB 中不同 INSERT 语句的分析，可以清晰地看到 TiDB 在数据处理方面的高效性和灵活性。TiDB 的设计理念将插入操作分成了多个阶段，包括数据的缓存、冲突的检测和批量处理等，这使得 TiDB 在面对大规模数据操作时表现出色。

对于开发者而言，理解这些高级功能不仅有助于更高效地使用 TiDB，还为以后对 TiDB 代码的贡献提供了宝贵的认识和经验。通过深入了解 INSERT 语句的实现，开发者可以更好地把握 TiDB 的架构，找到潜在的优化点，提升开发体验和性能表现。

上一篇：TiDB Operator，让 TiDB 成为真正的 Cloud-Native 数据库

下一篇：TiDB 源码阅读系列文章（十五）Sort Merge Join

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！