后端风云-白红宇的个人博客

后端风云

发布日期：2021-05-14 01:58:24 浏览次数：17 分类：精选文章

本文共 2094 字，大约阅读时间需要 6 分钟。

分布式系统中的唯一ID生成：从问题到解决方案再到挑战

在一个分布式系统中，每个请求都必须有唯一的标识符，这样才能保证系统的可靠性和一致性。在我们的项目中，这一问题一直让人头疼，直到有一天我们决定从头开始解决它。

最初，我们使用了UUID（通用唯一标识符）的方式来为每个操作生成唯一的ID。UUID由时间戳、网络地址、随机数等多个组成部分构成，理论上可以确保唯一性。然而，随着系统规模的不断扩大，UUID的不可读性和潜在的唯一性问题逐渐显现。我们发现，UUID通常包含大量的随机字符，难以排序，也无法保证有序递增，这使得在数据库中的查询和存储变得更加复杂。

在一次集体讨论中，我们意识到数据库的 auto_increment 功能可以提供有序唯一的ID，这似乎是一个理想的解决方案。然而，这一选择也遇到了阻力。负责系统设计的团队担心数据库的可用性问题：如果数据库发生故障，系统将无法生成新的ID，这会直接威胁到整个系统的运行。

为了解决这一问题，我们尝试将MySQL的能力扩展到更远。我们提出了一种方案：通过多个MySQL实例并行生成ID，以提高系统的容错能力。具体来说，我们可以配置多个MySQL实例，每个实例使用不同的起始值，并根据负载均衡的原则动态分配请求。

Nginx在这一方案中发挥了重要作用。它不仅充当反向代理，还通过智能负载均衡保证每个MySQL实例的负载均衡。例如，我们可以配置两个MySQL实例：

实例一：起始值为1，每次递增2，生成ID为1,3,5,7,...

实例二：起始值为2，每次递增2，生成ID为2,4,6,8,...

当一个MySQL实例发生故障时，Nginx会自动将请求转移到另一个实例，这意味着系统的ID生成能力不会受到影响。

然而，我们很快发现这一方案仍然存在问题。如果最终目标是实现真正的分布式唯一ID，单一的传统数据库方案并不能胜任。我们需要一个能够在分布式环境中自带唯一性保证的ID生成机制。

最终，我们决定引入了一种分布式的ID生成算法——snowflake（雪花算法）。这个算法不仅可以在分布式环境中保证每个IDs的唯一性，还能保证ID的有序性。雪花算法的 workflow大致如下：

信息采集：从网络中获取节点ID、时区信息、随机数等。

时间编码：将时区时间编码为一个整数。

自增编码：为每个节点生成一个全局唯一的序列号。

ID合成：将时间编码、节点ID、自增序列号组合成一个128位的二进制数，转换为可读的字符串格式。

尽管雪花算法初始的学习成本较高，但它的高效性和可靠性使其成为了分布式系统中ID生成的首选方案。

引入Redis缓存后的优化

为了进一步提升ID生成的效率，我们引入了Redis进行缓存。采用Redis的超级快的内存129tabular结构，能够显著缩短ID获取的时延。具体实现方式如下：

Redis在后台周期性地拉取数据库中的最大ID，将其存储在内存中。

当客户端请求ID时，Redis直接从内存中取出最近的ID，并予以返回。

旧的ID会被老化机制定期清理，同时，当数据库中的最大ID超过缓存中的值时，Redis会刷新缓存。

这种方法的最大优势在于，它将ID的生成过程从数据库层面转移到了缓存层面，极大地提升了系统的性能。然而，我们也需要考虑数据库与Redis之间的同步机制，以确保数据一致性。

数组编号方案的优化尝试

正如前文中提到的，我们之前还尝试了基于数组编号的方案。具体来说：

数据库中的每个 MySQL 实例都有一条 auto_increment 的列。

Nginx负责根据系统负载情况分配请求到不同的实例上。

为了避免数据不一致的问题，我们采用了一主一从的MySQL复制结构。

尽管这种方案在小规模场景下表现良好，但在大规模场景中却显现出明显问题。例如，如果主库（Master-slave）之间的数据同步延迟过大，可能会导致ID同步失败，从而造成ID争начала随之而来的问题。

处理方案的总结

通过上述探索，我们可以总结出以下优化方案：

ID生成方式：

使用分布式唯一ID生成算法（如雪花算法）。

结合Redis缓存，提升ID获取效率。

负载均衡方案：

通过Nginx实现MySQL实例的负载均衡。

配合多个 MySQL 实例并行生成ID，以提高系统的容错能力。

数据一致性方案：

采用一主一从的MySQL复制结构，确保不同实例间的数据一致性。

简单的TxID去重机制为每个操作生成的唯一标识符记录ieselastico dubitatio记录。

在实际操作中，我们还需要注意以下几点：

超时控制：为了防止ID获取超时，建议在ID生成过程中设置一个超时阈值，并采用重试机制。

网络拥堵问题：在分布式系统中，网络连接不可靠性可能导致ID生成失败。需要设计一个既能处理丢包问题，又不影响系统整体性能的机制。

系统的扩展性：在ID生成算法和缓存机制中，要充分考虑系统扩展性，确保在新节点加入时，不会导致性能瓶颈。

这些经验教训让我们更加深入地理解了分布式系统中的ID生成问题，也为未来的系统设计提供了宝贵的参考。

上一篇：入职三天，公司给了100块钱叫我走人

下一篇：Redis是如何写代码注释的？（文末有福利）

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！