分布式系统中数据存储方案实践

教程大全 2025-07-13 04:17:20 浏览次

一、背景简介

从常规的微服务架构体系来看，对于系统中的数据存储可以划分如下几个模块：组件库、应用库、业务库、公共库、中间件数据、第三方；不同的场景下对数据存储能力的要求和依赖程度也各不相同；

组件库：微服务架构下，诸多基础的框架组件都依赖数据的持久化存储，以此来确保服务能力的稳定可控，避免异常情况下的数据丢失问题；

应用库：作为系统中的应用层，需要对请求的动作有记录和识别能力，并且存储诸多拦截和过滤的规则信息，用来维护下层业务服务的安全稳定；

业务库：做为系统中最核心的数据资产，对业务数据的存储和管理有极高的要求，并且要对数据的变化有一定的评估能力，提前做好数据膨胀的情况下系统测试和拆分方案，保障业务的稳定和持续发展；

公共库：系统中大部分业务都可能会依赖的能力，对于公共库和与之相应的服务来说，其吞吐量和并发能力，要支撑所有依赖业务的同时并发；

中间件：常见的中间件比如：缓存、消息队列、任务调度、搜索引擎等，都有数据存储的性质，只是在实现方式上会有差异；

第三方：大部分系统都或多或少的依赖一些第三方仓库，比如Git代码仓库、Maven包仓库、Docker镜像仓库、行为埋点数据、OSS文件服务等；

二、框架组件

微服务架构的常用组件中，例如GateWay路由网关、Nacos注册配置中心、Seata事务管理器等，都需要数据存储机制；

路由网关：通常在网关库中维护各个服务的路由地址和规则策略，以及黑白名单和流量管理等数据，虽然体量并不大，鉴于网关服务需要支撑流量的高并发，所以对数据的读性能有要求，尽量降低请求在网关层的耗时；

注册配置：统筹管理各个服务的配置数据，动态维护服务的注册状态，对存储的稳定性和数据安全有极高要求，要确保各个环境是隔离开的，并且不能暴露生产环境的配置信息；

事务管理：Seata组件提供高性能和易用的分布式事务管理能力，常规的事务调度过程需要依赖几张关键的记录表，通常需要进行分布式事务管理的接口，基本都是处理服务中的核心业务，既要保证稳定性也要支持高并发；

三、应用管理

应用层相对处于系统的上层，比如常见的门面服务，管理服务，控制中心等，通常在相应的库中存储请求记录，特定的过滤和拦截策略，异常响应日志，页面的展示管理等；

通常来说由控制中心进行统一的管理和维护应用库的配置数据，在各自的应用服务中直接查询即可；从而避免重复实现各种基础功能，同时将系统级的管理都放在控制中心服务，确保数据修改的入口单一，以便更好的监控动作日志；

四、业务数据

作为系统最核心的数据资产，业务数据的精准维护一直都是核心事项，除了提供必要业务流程的数据存储，还要支持数据的动态查询分析，并且会随着业务发展，数据的结构和体量也会不断产生变化；

分库分表：业务过度复杂的时候，会考虑库的拆分，从而保证各个业务块的相对稳定性；当某些表的数据量庞大时，会采用分表的方式，避免该表的处理时间过长从而影响整体性能；业务的库表拆分并且基于微服务管理，是当下主流的架构模式；

数据维护：随着业务的发展，数据体量和结构会随之膨胀，从而引发质量问题，所以在日常开发中很多版本都会进行数据维护，比如：数据清洗、数据迁移、结构拆分等，从而更好的管理数据保证业务的持续性；

微服务架构下数据的动态维护是一个比较复杂的流程，要保证在处理过程中不停机，需要依赖中间的调度服务去完成数据的维护过程，在此期间应用服务优先从旧服务和库中读取未处理的数据，新数据入库和查询走新的服务，直到整个维护流程结束，再根据预设好的标识关闭旧服务请求并且下线即可；

五、缓存管理

通常缓存可以有效解决数据查询时出现的性能问题，比如访问量大变动不频繁的热点数据，或者流程中经常加载的常量配置，另外也会基于Redis做加锁机制，一般采用键值对的方式管理数据读写；

值得注意的是，通常Redis库与业务库是具有一定的对应关系，例如订单业务库对应订单缓存库，并且不建议订单业务库数据主体被写入其他缓存中，统一通过订单服务的接口访问即可，保证各个微服务的数据独立性；

六、搜索引擎

当业务量大的时候，很难执行数据整体的条件检索机制，比如常见的核心业务数据、系统产生的日志或者动作埋点数据；需要引入搜索引擎的能力，这就涉及到业务库数据向ElasticSearch组件同步的过程；

不同的业务场景中，通常采用不同的数据同步策略；针对即时性高的业务数据，通常数据入库后执行写入；日志数据量大且流程解耦较高，自然存在一定的延时；分析类的数据则基于定时任务拉取即可；不管什么数据路径，都要重点关注业务库和索引之间的数据结构和一致性问题；

七、消息队列

消息队列作为流程解耦的常用组件，对消息数据的生产和消费需要一定的监控手段，复杂的流程一旦中断，需要进行二次重试的话，则需要调度各种参数和消息内容结构，来保证流程的最终完整性；

通常来说消息队列处理的业务复杂性都很高，所以比较考验流程设计的合理性，如果不统一管理消息的生产和消费的路径，在微服务的架构下基于MQ做流程的分段解耦，如果出现流程中断或者系统异常的情况，都很难对相关逻辑做二次调度；

八、日志信息

日志作为系统中的基础组件，记录的相关数据在日常开发维护的过程中十分重要，从数据的整体来看大致分为系统运行日志，通常基于ELK的方式，另外就是业务日志，需要具备业务语义，通常采用AOP切面模式进行定制开发；

由于日志数据的体量很大，业务日志一般会存放在单独的库内，并且同步到搜索引擎中，对于系统运行日志则按照时段或者文件大小的策略直接写入搜索引擎；值得注意的是存放日志数据的ES也需要独立部署，避免与核心的业务数据放在一起，当流量突然增长时产生的日志数据会非常大；

九、文件管理

文件管理是系统中的复杂模块，由于涉及IO流很容易引发内存问题，所以文件服务基本都会独立部署，鉴于文件数据丢失很难找回的情况，通常会把文件存储到OSS云端，在文件服务中会记录各个文件的地址和描述以及业务应用场景；

由于文件的类型多种多样，比如：PDF、Excel、Word、Csv、Xml等等，其数据处理的手段也各不相同，如果文件过大还需要切割分块，同时文件管理的过程需要很多约定的规则，比较常见的就是大小限制，命名信息，类型与编码等；

十、持续集成

代码工程在版本的交付中，会产生多个分支和打包文件，持续集成的过程也涉及多个文件仓库的维护管理，比如：Git代码仓库、Maven私有制品仓库、Docker镜像仓库、脚本文件仓库等；通过Jenkins服务协调多个仓库实现流程自动化；

对于仓库存储的各种版本打包文件，微服务架构下存在不同服务依赖同一服务不同版本的情况，另外不排除新老版本的接口存在逻辑冲突问题，此时可能需要版本回滚，重新依赖原有的分支包，再寻求问题的解决方案；关于代码工程涉及的相关存储基本都是使用第三方的云端仓库，在管理维护方面比较简单；

十一、参考源码

应用仓库：组件封装：

XFS分布式存储系统主要解决了那些问题？

你好，XFS分布式存储系统主要了一下5个方面的问题：1、数据完全性采用XFS文件系统，当意想不到的宕机发生后，首先，由于文件系统开启了日志功能，所以你磁盘上的文件不再会意外宕机而遭到破坏了。不论目前文件系统上存储的文件与数据有多少，文件系统都可以根据所记录的日志在很短的时间内迅速恢复磁盘文件内容。 2、传输特性XFS文件系统采用优化算法，日志记录对整体文件操作影响非常小。 XFS查询与分配存储空间非常快。 xfs文件系统能连续提供快速的反应时间。 3、可扩展性XFS是一个全64-bit的文件系统，它可以支持上百万T字节的存储空间。对特大文件及小尺寸文件的支持都表现出众，支持特大数量的目录。最大可支持的文件大小为263=9x1018=9exabytes，最大文件系统尺寸为18exabytes。 4、数据结构XFS使用高效的表结构(B+树)，保证了文件系统可以快速搜索与快速空间分配。 XFS能够持续提供高速操作，文件系统的性能不受目录中目录及文件数量的限制。 5、传输带宽XFS能以接近裸设备I/O的性能存储数据。在单个文件系统的测试中，其吞吐量最高可达7GB每秒，对单个文件的读写操作，其吞吐量可达4GB每秒。

ims技术特点是什么

IMS是上海新跃物流汇团队自主研发并拥有自主知识产权的针对中小物流企业的综合性信息化管理解决方案，IMS是系统的英文缩写。简单介绍一下，IMS在技术方面主要有以下这样几个特点：一采用B/S架构IMS系统采用B/S架构，但可以安装客户端。 B/S最大的优点就是大大简化了系统的维护、开发和使用，实现客户端零维护。无论用户的规模有多大，有多少分支机构都不会增加任何维护升级的工作量，所有的操作只需要针对服务器进行；如果是异地，只需要把服务器连接专网即可实现远程维护、升级和共享。由于IMS系统主要针对物流行业的中小型公司，因此采用IE/Flashplayer 可以让界面元素呈现更多，更容易在B/S架构下轻松实现C/S的客户体验。二采用分布式数据库方式IMS系统通过B/S架构实现数据的集中管理，同时采用分布式数据库实现数据的分布式存储，大大增强了IMS的扩展性，使得系统可以轻松应对企业业务数据不断攀升的量级需求；而在服务器的架设上，IMS根据IT灾备需求进行集群架构处理，从根本上避免了系统因为受到黑客攻击而全线崩溃的可能。三 IMS采用了靓丽的换皮肤技术。将系统外观与代码进行隔离，可以让IMS系统在改变界面风格时变得更容易。

缓冲区溢出攻击原理是？

如果把一加仑的水注入容量为一品脱的容量中，水会四处冒出，这时你就会充分理解溢出的含义。同样的道理，在计算机内部，如果你向一个容量有限的内存空间里存储过量数据，这时数据也会溢出存储空间。输入数据通常被存放在一个临时空间内，这个临时存放空间被称为缓冲区，缓冲区的长度事先已经被程序或者*作系统定义好了。何为缓冲区溢出缓冲区溢出是指当计算机程序向缓冲区内填充的数据位数超过了缓冲区本身的容量。溢出的数据覆盖在合法数据上。理想情况是，程序检查数据长度并且不允许输入超过缓冲区长度的字符串。但是绝大多数程序都会假设数据长度总是与所分配的存储空间相匹配，这就为缓冲区溢出埋下隐患。 *作系统所使用的缓冲区又被称为堆栈，在各个*作进程之间，指令被临时存储在堆栈当中，堆栈也会出现缓冲区溢出。当一个超长的数据进入到缓冲区时，超出部分就会被写入其他缓冲区，其他缓冲区存放的可能是数据、下一条指令的指针，或者是其他程序的输出内容，这些内容都被覆盖或者破坏掉。可见一小部分数据或者一套指令的溢出就可能导致一个程序或者*作系统崩溃。溢出根源在于编程缓冲区溢出是由编程错误引起的。如果缓冲区被写满，而程序没有去检查缓冲区边界，也没有停止接收数据，这时缓冲区溢出就会发生。缓冲区边界检查被认为是不会有收益的管理支出，计算机资源不够或者内存不足是编程者不编写缓冲区边界检查语句的理由，然而摩尔定律已经使这一理由失去了存在的基础，但是多数用户仍然在主要应用中运行十年甚至二十年前的程序代码。缓冲区溢出之所以泛滥，是由于开放源代码程序的本质决定的。一些编程语言对于缓冲区溢出是具有免疫力的，例如Perl能够自动调节字节排列的大小，Ada95能够检查和阻止缓冲区溢出。但是被广泛使用的C语言却没有建立检测机制。标准C语言具有许多复制和添加字符串的函数，这使得标准C语言很难进行边界检查。 C＋＋略微好一些，但是仍然存在缓冲区溢出。一般情况下，覆盖其他数据区的数据是没有意义的，最多造成应用程序错误，但是，如果输入的数据是经过“黑客”或者病毒精心设计的，覆盖缓冲区的数据恰恰是“黑客”或者病毒的入侵程序代码，一旦多余字节被编译执行，“黑客”或者病毒就有可能为所欲为，获取系统的控制权。溢出导致“黑客”病毒横行缓冲区溢出是病毒编写者和特洛伊木马编写者偏爱使用的一种攻击方法。攻击者或者病毒善于在系统当中发现容易产生缓冲区溢出之处，运行特别程序，获得优先级，指示计算机破坏文件，改变数据，泄露敏感信息，产生后门访问点，感染或者攻击其他计算机。 2000年7月，微软Outlook以及Outlook Express被发现存在漏洞能够使攻击者仅通过发送邮件就能危及目标主机安全，只要邮件头部程序被运行，就会产生缓冲区溢出，并且触发恶意代码。 2001年8月，“红色代码”利用微软IIS漏洞产生缓冲区存溢出，成为攻击企业网络的“罪魁祸首”。 2003年1月，Slammer蠕虫利用微软SQL漏洞产生缓冲区溢出对全球互联网产生冲击。而在近几天，一种名为“冲击波”的蠕虫病毒利用微软RPC远程调用存在的缓冲区漏洞对Windows 2000/XP、Windows Server 2003进行攻击，波及全球网络系统。据CERT安全小组称，*作系统中超过50%的安全漏洞都是由内存溢出引起的，其中大多数与微软技术有关，这些与内存溢出相关的安全漏洞正在被越来越多的蠕虫病毒所利用。缓冲区溢出是目前导致“黑客”型病毒横行的主要原因。从红色代码到Slammer,再到日前爆发的“冲击波”，都是利用缓冲区溢出漏洞的典型。缓冲区溢出是一个编程问题，防止利用缓冲区溢出发起的攻击，关键在于程序开发者在开发程序时仔细检查溢出情况，不允许数据溢出缓冲区。此外，用户需要经常登录*作系统和应用程序提供商的网站，跟踪公布的系统漏洞，及时下载补丁程序，弥补系统漏洞。