如何在分布式环境中大规模生成唯一ID-认识-雪花ID (如何分布式部署deepseek)

教程大全 2025-07-07 18:20:26 浏览次

认识“雪花ID”：如何在分布式环境中大规模生成唯一ID？

2020-07-21 11:35:21唯一的ID使开发人员能够正确识别、保存和检索数据对象，并使数据对象参与到复杂的关系模式中。

图源：unsplash

唯一的ID使开发人员能够正确识别、保存和检索数据对象，并使数据对象参与到复杂的关系模式中。在应用程序开发周期中，程序员总会遇到要处理生成唯一的标识符这项任务。

这些独特的ID是如何生成的呢？哪种方法在不同的负载规模下最有效？ID如何在多个计算节点竞争下一个可用ID的分布式环境中保持唯一性？从小型单节点，到Twitter级别，本文笔者就将介绍三种最常见的技术。

通用唯一标识符——UUID

通用唯一标识符（UUID）这个概念大家不会陌生，它在软件中已经使用多年了。它是一个128位的数字，以受控和标准化的方式生成时，能够提供非常大的键空间，几乎消除了冲突的可能性。

UUID是由几个不同部分组成的合成ID，例如时间、节点的MAC地址或MD5散列的命名空间。为了适应所有这些组合，多年来，UUID规格已经发展出多个版本，特别是版本1和版本4。

根据数据和业务域的不同，一些开发人员可能会对其他版本感兴趣。处理128位数字并不是最适合开发人员描述信息的方式，因此UUID通常以规范文本形式表示，其中16个八位字节转换为32个十六进制字符，用连字符分隔，总共36个字符：

UUID样本-版本4

UUID最有趣的特性是其可以单独生成，且仍能保证在分布式环境中的唯一性。基本的ID生成算法并不复杂，也不需要任何同步（至少是低至100纳秒级别），可以并行执行：

分布式环境中生成唯一ID

能够自生成唯一性的内在属性，使得UUID成为分布式环境中最常用的ID生成技术之一。但UUID需要额外的存储空间，这可能会对查询性能产生负面影响。

持久层生成的ID

如果不想在应用程序级别生成唯一ID时，另一种常见的方法是用永续性储存体来处理。

最近所有的RDBMS都提供了某种列数据类型，开发人员能够委托它们生成唯一标识符。MongoDB提供ObjectID，Mysql和MariaDB提供AUTO_INCREMENT，MS-SQL-Server提供IDENTITY，等等。执行不同的数据库，ID的实际表现会有所不同，但唯一性的含义保持不变。

持久层生成的ID缓解了必须在应用程序代码中生成唯一ID的问题。但如果操作一个大型数据库集群，且有非常繁忙的应用程序在前，这种方法可能就无法满足需要了。

还有另一个问题：如果不往返数据库，则生成的ID对于代码来说是未知的：

RDBMS vs代码生成ID

上图中，额外往返于RDBMS可能会减慢应用程序的速度，可能使代码不必要地复杂化。然而，无论使用的是否是基础RDBMS产品，现代ORM框架都有助于以标准化的方式完成这项工作。

ID 服务器还是Snowflake ID

ID服务器负责为分布式基础设施生成唯一的ID。根据ID服务器执行功能的不同，可以是创建ID的单个服务器，也可以是每秒创建大量ID的服务器集群。

Twitter就不用我介绍了吧，平均每秒有9000条推特产生，峰值高达每秒143199条。Twitter需要一个解决方案，扩大其庞大服务器基础设施的规模，生成高效的存储ID。

图源：unsplash

这就是Twitter推出Snowflake计划的原因：Snowflake是一种能大规模生成唯一ID号的网络服务，同时具备一些基础的保证。

Twitter之前使用过一种每个进程每秒至少生成10000个ID且响应速度小于2ms的服务器。ID服务器之间不需要任何网络协调，生成的ID应大致按时间顺序排列，为了将存储保持在最低限度，生成的ID必须紧凑。

为了解决上述项目，Twitter开发了Snowflake项目作为用Scala编写的Thrift服务器。生成的ID包括：

· 时间——41位（毫秒精度）

· 配置的机器ID——10位

· 序列号——12位（每台机器每4096转一次）

虽然现在Snowflake项目已经结束，以一个更广泛的项目TwitterServer取而代之，但是分布式ID生成器工作的基本原则仍然适用。由于每个生成器具有独立性，Twitter能够根据需要扩展其基础设施，不会产生由于集群同步和协调而造成额外的延迟。

使用ID服务器的解决方案与代码生成ID的运作方式类似：

ID服务器生成ID

你会发现，其性能仍然会由于往返于ID服务器而降低，但因为不涉及复杂的数据库操作，这一额外的延迟比将对象刷新到RDBMS要短得多。ID服务器提供了一个中间解决方案，使开发人员能够控制生成唯一ID的方式与地点，无需引入复杂的、导致高延迟的基础设施。

对于最终需要保存数据的所有应用程序来说，生成唯一标识符都是必要步骤。本文讨论了三种常用的方法：UUID——本地生成ID，持久层驱动ID——集中创建ID，以及SnowflakeID——作为网络服务生成ID。

没有一劳永逸的解决方案。在应用程序中，选择生成唯一ID的方法需要考虑数据、持久性选项和网络基础设施等各个方面，这样才能挑到符合你需求和想法规模的方案。

“云”技术和P2P技术有什么区别？

是云计算技术云计算（cloud computing），分布式计算技术的一种，其最基本的概念，是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序，再交由多部服务器所组成的庞大系统经搜寻、计算分析之后将处理结果回传给用户。透过这项技术，网络服务提供者可以在数秒之内，达成处理数以千万计甚至亿计的信息，达到和“超级计算机”同样强大效能的网络服务。

P2PP2P是英文Peer-to-Peer（对等）的简称，又被称为“点对点”。 “对等”技术，是一种网络新技术，依赖网络中参与者的计算能力和带宽，而不是把依赖都聚集在较少的几台服务器上。 P2P还是英文Point to Point （点对点）的简称。它是下载术语，意思是在你自己下载的同时，自己的电脑还要继续做主机上传，这种下载方式，人越多速度越快但缺点是对硬盘损伤比较大（在写的同时还要读），还有对内存占用较多，影响整机速度。

拒绝服务攻击和字典攻击是什么意思?

DoS（Denial of Service 拒绝服务）的攻击，是一种常见而有效的网络攻击技术，它通过利用协议或系统的缺陷，采取欺骗或伪装的策略来进行网络攻击，最终使得受害者的系统因为资源耗尽或无法作出正确响应而瘫痪，从而无法向合法用户提供正常服务。它看上去平淡无奇，但是攻击范围广，隐蔽性强、简单有效而成为了网络中一种强大的攻击技术，极大地影响了网络和业务主机系统的有效服务。其中，DDoS（Distubuted Denial of Service 分布式拒绝服务）更以其大规模性、隐蔽性和难防范性而著称。

大数据云计算好不好学习？

大数据专业还是很好学习的，当前，国家大数据战略实施已经到了落地的关键时期，大数据技术产业创新发展、大数据与实体经济深度融合、以及大数据安全管理与法律规制等方面都进入了攻坚阶段大数据领域的人才需求主要围绕大数据的产业链展开，涉及到数据的采集、整理、存储、安全、分析、呈现和应用，岗位多集中在大数据平台研发、大数据应用开发、大数据分析和大数据运维等几个岗位。当前整个IT行业对于大数据人才的需求量还是比较大的