分布式数据库在线修改表结构如何避免服务中断

教程大全 2026-03-10 15:14:55 浏览

分布式数据库作为支撑大规模业务系统的核心组件,其修改操作涉及架构、数据、性能等多维度调整,直接关系到系统的稳定性与可用性,随着业务迭代加速和数据量激增,分布式数据库的修改需求日益频繁,如何高效、安全地完成修改成为技术团队面临的重要课题。

分布式数据库修改的核心挑战

分布式数据库在线修改表结构如何避免服务中断

与传统单机数据库不同,分布式数据库的修改需跨越多个节点、分片和副本,其复杂性主要体现在三方面,首先是 数据一致性保障 ,修改操作可能涉及跨分片事务、跨节点数据同步,网络分区、节点故障等异常场景易导致数据不一致,在扩容节点时,数据重分布需确保所有分片完成迁移且数据完整,否则可能引发查询错误,其次是 高可用性维护 ,修改过程中需避免服务中断,但分布式环境下节点间的依赖关系复杂,单点操作失误可能引发连锁故障,最后是 性能影响控制 ,修改操作(如索引重建、分片调整)可能消耗大量网络带宽和计算资源,需避免对在线业务造成显著延迟或吞吐量下降。

常见修改类型与场景

分布式数据库的修改可根据目标分为结构变更、数据迁移、配置优化三大类。 结构变更 包括表结构修改(如新增字段、调整索引)、分片策略调整(如从哈希分片迁移到范围分片以适应新业务场景),电商系统在引入多区域业务后,需将原本按用户ID哈希分片的策略调整为按地理区域分片,以降低跨区域访问延迟。 数据迁移 涉及数据重分布(如节点扩容时的数据均衡)、冷热数据分离(将历史数据迁移至低成本存储)、跨数据中心同步(如主备数据中心的数据一致性维护),数据迁移需兼顾效率与准确性,常采用增量同步与全量迁移结合的方式,避免业务长时间停机。 配置优化 则聚焦于性能调优,如调整副本数(提升读吞吐或容灾能力)、优化缓存策略(减少磁盘IO)、修改事务隔离级别(平衡一致性与并发性能),在高并发场景下,将隔离级别从“可重复读”降为“读已提交”,可减少锁竞争,但需确保业务能接受短暂的数据不一致。

关键技术支撑:确保修改安全可控

分布式数据库的修改需依赖多项关键技术实现安全与效率的平衡。 分布式事务机制 是核心保障,如基于两阶段提交(2PC)或三阶段提交(3PC)的强一致性事务,可确保跨节点的修改操作要么全部成功,要么全部回滚,但2PC存在阻塞问题,实践中常结合Paxos或Raft等共识算法优化,实现高可用下的原子性修改。 冲突检测与解决 在并发修改中尤为重要,通过乐观并发控制(OCC)或悲观锁机制,避免多节点同时修改同一数据导致冲突,在数据迁移过程中,通过版本号记录数据变更,当迁移端与业务端产生冲突时,优先保留最新版本或按预设策略合并。 元数据管理与版本控制 则通过集中式元数据存储(如ZooKeeper、etcd)记录分片信息、节点状态等,确保修改操作的全局可见性,通过版本快照机制,支持修改失败后的快速回滚,降低风险。 自动化工具链 是提升效率的关键,包括DDL变更工具(如MySQL的gh-ost、Vitess)、数据迁移工具(如DataX、Canal)、监控告警系统,可自动化执行修改流程并实时采集性能指标,减少人工操作失误。

实践策略:从规划到落地的全流程管理

一次成功的分布式数据库修改需遵循“充分规划-灰度验证-平滑执行-监控复盘”的流程。 规划阶段 需明确修改目标、评估风险,并制定回滚方案,在分片调整前,需通过压力测试模拟数据迁移对业务的影响,确定最佳迁移窗口(如低峰期),并预留足够资源(如网络带宽、存储空间)。 灰度验证 是降低风险的关键环节,先在少数节点或测试环境中执行修改,验证功能正确性与性能表现,通过“金丝雀发布”策略,将10%的流量切换到新分片,观察指标正常后再逐步扩大范围。 平滑执行 需采用“停机+在线”结合的方式,对必须停机的操作(如底层架构调整)选择业务低峰期,并提前通知用户;对可在线操作(如索引重建)则利用数据库的在线DDL功能,避免阻塞业务读写。 监控复盘 需贯穿修改全程,实时监控CPU、内存、网络延迟、错误率等指标,异常时立即触发回滚机制,修改完成后,需分析性能数据,总结经验教训,优化后续修改流程。

未来趋势:智能化与云原生的演进

随着云原生和AI技术的发展,分布式数据库修改正向更智能、更高效的方向演进。 AI辅助修改 逐渐普及,通过机器学习分析历史修改数据,预测操作风险(如某分片调整可能导致延迟飙升),并自动生成最优方案。 云原生数据库 的兴起使修改操作更加标准化,基于Kubernetes的容器化部署和声明式API,可实现修改的自动化编排与弹性伸缩,例如通过一条命令完成节点扩容、数据重分布及负载均衡的全流程。 实时修改技术 (如在线数据重分布、零停机DDL)不断成熟,将进一步减少对业务的影响,支撑业务的快速迭代。

分布式数据库的修改是一项系统工程,需在技术、流程、工具层面协同发力,通过深入理解其核心挑战,掌握关键技术,并遵循科学的实践策略,才能在保障系统稳定的前提下,高效完成修改操作,为业务的持续发展提供坚实支撑。


oracle数据库的后台进程有哪些

DBWR进程:该进程执行将缓冲区写入数据文件,是负责缓冲存储区管理的一个ORACLE后台进程。 当缓冲区中的一缓冲区被修改,它被标志为“弄脏”,DBWR的主要任务是将“弄脏”的缓冲区写入磁盘,使缓冲区保持“干净”。 由于缓冲存储区的缓冲区填入数据库或被用户进程弄脏,未用的缓冲区的数目减少。 当未用的缓冲区下降到很少,以致用户进程要从磁盘读入块到内存存储区时无法找到未用的缓冲区时,DBWR将管理缓冲存储区,使用户进程总可得到未用的缓冲区。 ORACLE采用LRU(LEAST RECENTLY USED)算法(最近最少使用算法)保持内存中的数据块是最近使用的,使I/O最小。 在下列情况预示DBWR 要将弄脏的缓冲区写入磁盘:当一个服务器进程将一缓冲区移入“弄脏”表,该弄脏表达到临界长度时,该服务进程将通知DBWR进行写。 该临界长度是为参数DB-BLOCK-WRITE-BATCH的值的一半。 当一个服务器进程在LRU表中查找DB-BLOCK-MAX-SCAN-CNT缓冲区时,没有查到未用的缓冲区,它停止查找并通知DBWR进行写。 出现超时(每次3秒),DBWR 将通知本身。 当出现检查点时,LGWR将通知DBWR.在前两种情况下,DBWR将弄脏表中的块写入磁盘,每次可写的块数由初始化参数DB-BLOCK- WRITE-BATCH所指定。 如果弄脏表中没有该参数指定块数的缓冲区,DBWR从LUR表中查找另外一个弄脏缓冲区。 如果DBWR在三秒内未活动,则出现超时。 在这种情况下DBWR对LRU表查找指定数目的缓冲区,将所找到任何弄脏缓冲区写入磁盘。 每当出现超时,DBWR查找一个新的缓冲区组。 每次由DBWR查找的缓冲区的数目是为寝化参数DB-BLOCK- WRITE-BATCH的值的二倍。 如果数据库空运转,DBWR最终将全部缓冲区存储区写入磁盘。 在出现检查点时,LGWR指定一修改缓冲区表必须写入到磁盘。 DBWR将指定的缓冲区写入磁盘。 在有些平台上,一个实例可有多个DBWR.在这样的实例中,一些块可写入一磁盘,另一些块可写入其它磁盘。 参数DB-WRITERS控制DBWR进程个数。 LGWR进程:该进程将日志缓冲区写入磁盘上的一个日志文件,它是负责管理日志缓冲区的一个ORACLE后台进程。 LGWR进程将自上次写入磁盘以来的全部日志项输出,LGWR输出:当用户进程提交一事务时写入一个提交记录。 每三秒将日志缓冲区输出。 当日志缓冲区的1/3已满时将日志缓冲区输出。 当DBWR将修改缓冲区写入磁盘时则将日志缓冲区输出。 LGWR进程同步地写入到活动的镜象在线日志文件组。 如果组中一个文件被删除或不可用,LGWR 可继续地写入该组的其它文件。 日志缓冲区是一个循环缓冲区。 当LGWR将日志缓冲区的日志项写入日志文件后,服务器进程可将新的日志项写入到该日志缓冲区。 LGWR 通常写得很快,可确保日志缓冲区总有空间可写入新的日志项。 注意:有时候当需要更多的日志缓冲区时,LWGR在一个事务提交前就将日志项写出,而这些日志项仅当在以后事务提交后才永久化。 ORACLE使用快速提交机制,当用户发出COMMIT语句时,一个COMMIT记录立即放入日志缓冲区,但相应的数据缓冲区改变是被延迟,直到在更有效时才将它们写入数据文件。 当一事务提交时,被赋给一个系统修改号(SCN),它同事务日志项一起记录在日志中。 由于SCN记录在日志中,以致在并行服务器选项配置情况下,恢复操作可以同步。 CKPT进程:该进程在检查点出现时,对全部数据文件的标题进行修改,指示该检查点。 在通常的情况下,该任务由LGWR执行。 然而,如果检查点明显地降低系统性能时,可使CKPT进程运行,将原来由LGWR进程执行的检查点的工作分离出来,由 CKPT进程实现。 对于许多应用情况,CKPT进程是不必要的。 只有当数据库有许多数据文件,LGWR在检查点时明显地降低性能才使CKPT运行。 CKPT进程不将块写入磁盘,该工作是由DBWR完成的。 初始化参数CHECKPOINT-PROCESS控制CKPT进程的使能或使不能。 缺省时为FALSE,即为使不能。 SMON进程:该进程实例启动时执行实例恢复,还负责清理不再使用的临时段。 在具有并行服务器选项的环境下,SMON对有故障CPU或实例进行实例恢复。 SMON进程有规律地被呼醒,检查是否需要,或者其它进程发现需要时可以被调用。 PMON进程:该进程在用户进程出现故障时执行进程恢复,负责清理内存储区和释放该进程所使用的资源。 例:它要重置活动事务表的状态,释放封锁,将该故障的进程的ID从活动进程表中移去。 PMON还周期地检查调度进程(DISPATCHER)和服务器进程的状态,如果已死,则重新启动(不包括有意删除的进程)。 PMON有规律地被呼醒,检查是否需要,或者其它进程发现需要时可以被调用。 RECO进程:该进程是在具有分布式选项时所使用的一个进程,自动地解决在分布式事务中的故障。 一个结点RECO后台进程自动地连接到包含有悬而未决的分布式事务的其它数据库中,RECO自动地解决所有的悬而不决的事务。 任何相应于已处理的悬而不决的事务的行将从每一个数据库的悬挂事务表中删去。 当一数据库服务器的RECO后台进程试图建立同一远程服务器的通信,如果远程服务器是不可用或者网络连接不能建立时,RECO自动地在一个时间间隔之后再次连接。 RECO后台进程仅当在允许分布式事务的系统中出现,而且DISTRIBUTED ?C TRANSACTIONS参数是大于进程:该进程将已填满的在线日志文件拷贝到指定的存储设备。 当日志是为ARCHIVELOG使用方式、并可自动地归档时ARCH进程才存在。 LCKn进程:是在具有并行服务器选件环境下使用,可多至10个进程(LCK0,LCK1……,LCK9),用于实例间的封锁。 Dnnn进程(调度进程):该进程允许用户进程共享有限的服务器进程(SERVER PROCESS)。 没有调度进程时,每个用户进程需要一个专用服务进程(DEDICATEDSERVER PROCESS)。 对于多线索服务器(MULTI-THREADED SERVER)可支持多个用户进程。 如果在系统中具有大量用户,多线索服务器可支持大量用户,尤其在客户_服务器环境中。 在一个数据库实例中可建立多个调度进程。 对每种网络协议至少建立一个调度进程。 数据库管理员根据操作系统中每个进程可连接数目的限制决定启动的调度程序的最优数,在实例运行时可增加或删除调度进程。 多线索服务器需要SQL*NET版本2或更后的版本。 在多线索服务器的配置下,一个网络接收器进程等待客户应用连接请求,并将每一个发送到一个调度进程。 如果不能将客户应用连接到一调度进程时,网络接收器进程将启动一个专用服务器进程。 该网络接收器进程不是ORACLE实例的组成部分,它是处理与ORACLE有关的网络进程的组成部分。 在实例启动时,该网络接收器被打开,为用户连接到ORACLE建立一通信路径,然后每一个调度进程把连接请求的调度进程的地址给予于它的接收器。 当一个用户进程作连接请求时,网络接收器进程分析请求并决定该用户是否可使用一调度进程。 如果是,该网络接收器进程返回该调度进程的地址,之后用户进程直接连接到该调度进程。 有些用户进程不能调度进程通信(如果使用SQL*NET以前的版本的用户),网络接收器进程不能将如此用户连接到一调度进程。 在这种情况下,网络接收器建立一个专用服务器进程,建立一种合适的连接.即主要的有:DBWR,LGWR,SMON 其他后台进程有PMON,CKPT等

我想考软件设计师,应该做什么准备啊,,我刚开始看教程,是计算机系的。。。。。

照大纲复习了.上网找一些最新资料 一、考试说明 1.考试要求: (1) 掌握数据表示、算术和逻辑运算; (2) 掌握相关的应用数学、离散数学的基础知识; (3) 掌握计算机体系结构以及各主要部件的性能和基本工作原理; (4) 掌握操作系统、程序设计语言的基础知识,了解编译程序的基本知识; (5) 熟练掌握常用数据结构和常用算法; (6) 熟悉数据库、网络和多媒体的基础知识; (7) 掌握C程序设计语言,以及C++、Java、Visual、Basic、Visual C++中的一种程序设计语言; (8) 熟悉软件工程、软件过程改进和软件开发项目管理的基础知识; (9) 熟悉掌握软件设计的方法和技术; (10) 掌握常用信息技术标准、安全性,以及有关法律、法规的基本知识; (11) 了解信息化、计算机应用的基础知识; (12) 正确阅读和理解计算机领域的英文资料。 2.通过本考试的合格人员能根据软件开发项目管理和软件工程的要求,按照系统总体设计规格说明书进行软件设计,编写程序设计规格说明书等相应的文档,组织和指导程序员编写、调试程序,并对软件进行优化和集成测试,开发出符合系统总体设计要求的高质量软件;具有工程的实际工作能力和业务水平。 3.本考试设置的科目包括: (1) 计算机与软件工程知识,考试时间为150分钟,笔试; (2) 软件设计,考试时间为150分钟,笔试。 二、考试范围 考试科目1:计算机与软件工程知识 1.计算机科学基础 1.1 数制及其转换 · 二进制、十进制和十六进制等常用制数制及其相互转换 1.2 数据的表示 · 数的表示(原码、反码、补码、移码表示,整数和实数的机内表示,精度和溢出) · 非数值表示(字符和汉字表示、声音表示、图像表示) · 校验方法和校验码(奇偶校验码、海明校验码、循环冗余校验码) 1.3 算术运算和逻辑运算 · 计算机中的二进制数运算方法 · 逻辑代数的基本运算和逻辑表达式的化简 1.4 数学基础知识 · 命题逻辑、谓词逻辑、形式逻辑的基础知识 · 常用数值计算(误差、矩阵和行列式、近似求解方程、插值、数值积分) · 排列组合、概率论应用、应用统计(数据的统计分析) · 运算基本方法(预测与决策、线性规划、网络图、模拟) 1.5 常用数据结构 · 数组(静态数组、动态数组)、线性表、链表(单向链表、双向链表、循环链表)、队列、栈、树(二叉树、查找树、平衡树、线索树、线索树、堆)、图等的定义、存储和操作 · Hash(存储地址计算,冲突处理) 1.6 常用算法 · 排序算法、查找算法、数值计算方法、字符串处理方法、数据压缩算法、递归算法、图的相关算法 · 算法与数据结构的关系、算法效率、算法设计、算法描述(流程图、伪代码、决策表)、算法的复杂性 2.计算机系统知识 2.1 硬件知识 2.1.1 计算机系统的组成、体系结构分类及特性 · CPU和存储器的组成、性能和基本工作原理 · 常用I/O设备、通信设备的性能,以及基本工作原理 · I/O接口的功能、类型和特性 · I/O控制方式(中断系统、DMA、I/O处理机方式) · CISC/RISC,流水线操作,多处理机,并行处理 2.1.2 存储系统 · 主存-Cache存储系统的工作原理 · 虚拟存储器基本工作原理,多级存储体系的性能价格 · RAID类型和特性 2.1.3 安全性、可靠性与系统性能评测基础知识 · 诊断与容错 · 系统可靠性分析评价 · 计算机系统性能评测方式 2.2 软件知识 2.2.1 操作系统知识 · 操作系统的内核(中断控制)、进程、线程概念 · 处理机管理(状态转换、共享与互斥、分时轮转、抢占、死锁) · 存储管理(主存保护、动态连接分配、分段、分页、虚存) · 设备管理(I/O控制、假脱机) · 文件管理(文件目录、文件组织、存取方法、存取控制、恢复处理) · 作业管理(作业调度、作业控制语言(JCL)、多道程序设计) · 汉字处理,多媒体处理,人机界面 · 网络操作系统和嵌入式操作系统基础知识 · 操作系统的配置 2.2.2 程序设计语言和语言处理程序的知识 · 汇编、编译、解释系统的基础知识和基本工作原理 · 程序设计语言的基本成分:数据、运算、控制和传输,过程(函数)调用 · 各类程序设计语言主要特点和适用情况 2.3 计算机网络知识 · 网络体系结构(网络拓扑、OSI/RM、基本的网络协议) · 传输介质、传输技术、传输方法、传输控制 · 常用网络设备和各类通信设备 · Client/Server结构、Browser/Server结构 · LAN拓扑,存取控制,LAN的组网,LAN间连接,LAN-WAN连接 · 因特网基础知识以及应用 · 网络软件 · 网络管理 · 网络性能分析 2.4 数据库知识 · 数据库管理系统的功能和特征 · 数据库模型(概念模式、外模式、内模式) · 数据模型,ER图,第一范式、第二范式、第三范式 · 数据操作(集合运算和关系运算) · 数据库语言(SQL) · 数据库的控制功能(并发控制、恢复、安全性、完整性) · 数据仓库和分布式数据库基础知识 2.5 多媒体知识 · 多媒体系统基础知识,多媒体设备的性能特性,常用多媒体文件格式 · 简单图形的绘制,图像文件的处理方法 · 音频和视频信息的应用 · 多媒体应用开发过程 2.6 系统性能知识 · 性能指标(响应时间、吞吐量、周转时间)和性能设计 · 性能测试和性能评估 · 可靠性指标及计算、可靠性设计 · 可靠性测试和可靠性评估 2.7 计算机应用基础知识 ·信息管理、数据处理、辅助设计、自动控制、科学计算、人工智能等基础知识 · 远程通信服务基础知识 · 常用应用系统3.系统开发和运行知识 3.1 软件工程、软件过程改进和软件开发项目管理知识 · 软件工程知识 · 软件开发生命周期各阶段的目标和任务 · 软件开发项目管理基础知识(时间管理、成本管理、质量管理、人力资源管理、风险管理等)及其常用管理工具 · 主要的软件开发方法(生命周期法、原型法、面向对象法、CASE) · 软件开发工具与环境知识 · 软件过程改进知识 · 软件质量管理知识 · 软件开发过程评估、软件能力成熟评估基础知识 3.2 系统分析基础知识 · 系统分析的目的和任务 ·结构化分析方法(数据流图(DFD)、数据字典(DD)、实体关系图(ERD)、描述加工处理的结构化语言) · 统一建模语言(UML) · 系统规格说明书 3.3 系统设计知识 · 系统设计的目的和任务 · 结构化设计方法和工具(系统流程图、HIPO图、控制流程图) · 系统总体结构设计(总体布局、设计原则、模块结构设计、数据存储设计、系统配置方案) · 系统详细设计(代码设计、数据库设计、用户界面设计、处理过程设计) · 系统设计说明书 3.4 系统实施知识 · 系统实施的主要任务 · 结构化程序设计、面向对象程序设计、可视化程序设计 · 程序设计风格 · 程序设计语言的选择 · 系统测试的目的、类型,系统测试方法(黑盒测试、白盒测试、灰盒测试) · 测试设计和管理(错误曲线、错误排除、收敛、注入故障、测试用例设计、系统测试报告) · 系统转换基础知识 3.5 系统运行和维护知识 · 系统运行管理基础知识 · 系统维护基础知识 · 系统评价基础知识 3.6 面向对象开发方法 · 面向对象开发概念(类、对象、属性、封装性、继承性、多态性、对象之间的引用) · 面向对象开发方法的优越性以及有效领域 · 面向对象设计方法(体系结构、类的设计、用户接口设计) · 面向对象实现方法(选择程序设计语言、类的实现、方法的实现、用户接口的实现、准备测试数据) · 面向对象程序设计语言(如C++、Java、Visual、Bsasic、Visual C++)的基本机制 · 面向对象数据库、分布式对象的概念 4.安全性知识 · 安全性基本概念 · 防治计算机病毒、防范计算机犯罪 · 存取控制、防闯入、安全管理措施 · 加密与解密机制 ·风险分析、风险类型、抗风险措施和内部控制 5.标准化知识 · 标准化意识、标准化的发展、标准制订过程 · 国际标准、国家标准、行业标准、企业标准基本知识 · 代码标准、文件格式标准、安全标准、软件开发规范和文档标准知识 · 标准化机构 6.信息化基础知识 · 信息化意识 · 全球信息化趋势、国家信息化战略、企业信息化战略和策略 · 有关的法律、法规 · 远程教育、电子商务、电子政务等基础知识 · 企业信息资源管理基础知识 7.计算机专业英语 · 掌握计算机技术的基本词汇 · 能正确阅读和理解计算机领域的英文资料 考试科目2:软件设计 1.外部设计 1.1 理解系统需求说明 1.2 系统开发的准备 · 选择开发方法、准备开发环境、制订开发计划 1.3 设计系统功能 · 选择系统结构,设计各子系统的功能和接口,设计安全性策略、需求和实现方法,制订详细的工作流和数据流 1.4 设计数据模型 · 设计ER模型、数据模型 1.5 编写外部设计文档 · 系统配置图、各子系统关系图、系统流程图、系统功能说明书、输入输出规格说明、数据规格说明、用户手册框架 · 设计系统测试要求 1.6 设计评审 2.内部设计 2.1 设计软件结构 ·按构件分解,确定构件功能规格以及构件之间的接口 · 采用中间件和工具 2.2 设计输入输出 · 屏幕界面设计、设计输入输出检查方法和检查信息> 2.3 设计物理数据 · 分析数据特性,确定逻辑数据组织方式、存储介质,设计记录格式和处理方式 · 将逻辑数据结构换成物理数据结构,计算容量,进行优化 2.4 构件的创建和重用 · 创建、重用构件的概念 · 使用子程序库或类库 2.5 编写内部设计文档 · 构件划分图、构件间的接口、构件处理说明、屏幕设计文档、报表设计文档、文件设计文档、数据库设计文档 2.6 设计评审 3.程序设计 3.1 模块划分(原则、方法、标准) 3.2 编写程序设计文档 · 模块规格说明书(功能和接口说明、程序处理逻辑的描述、输入输出数据格式的描述) · 测试要求说明书(测试类型和目标、测试用例、测试方法) 3.3 程序设计评审 4.系统实施 4.1 配置计算机系统及其环境 4.2 选择合适的程序设计语言 4.3 掌握C程序设计语言,以及C++、Java、Visual、Basic、Visual C++中任一种程序设计语言,以便能指导程序员进行编程和测试,并进行必要的优化 4.4 系统测试 · 指导程序员进行模块测试,并进行验收 · 准备系统集成测试环境和测试工具 · 准备测试数据 · 写出测试报告 5.软件工程 · 软件生存期模型(瀑布模型、螺旋模型、喷泉模型)和软件成本模型 · 定义软件需求(系统化的目标、配置、功能、性能和约束) · 描述软件需求的方法(功能层次模型、数据流模型、控制流模型、面向数据的模型、面向对象的模型等) · 定义软件需求的方法(结构化分析方法、面向对象分析方法) · 软件设计(分析与集成、逐步求精、抽象、信息隐蔽) · 软件设计方法(结构化设计方法、Jackson方法、Warnier方法、面向对象设计方法) · 程序设计(结构化程序设计、面向对象程序设计) · 软件测试的原则与方法 · 软件质量(软件质量特性、软件质量控制) · 软件过程评估基本方法、软件能力成熟度评估基本方法 · 软件开发环境和开发工具(分析工具、设计工具、编程工具、测试工具、维护工具、CASE) · 软件工程发展趋势(面向构件,统一建模语言(UML)) · 软件过程改进模型和方法 祝你过关.

scrapy使用redis的时候,redis需要进行一些设置吗

1.使用两台机器,一台是win10,一台是centos7,分别在两台机器上部署scrapy来进行分布式抓取一个网站7的ip地址为192.168.1.112,用来作为redis的master端,win10的机器作为的爬虫运行时会把提取到的url封装成request放到redis中的数据库:“dmoz:requests”,并且从该数据库中提取request后下载网页,再把网页的内容存放到redis的另一个数据库中“dmoz:items”从master的redis中取出待抓取的request,下载完网页之后就把网页的内容发送回master的redis5.重复上面的3和4,直到master的redis中的“dmoz:requests”数据库为空,再把master的redis中的“dmoz:items”数据库写入到mongodb中里的reids还有一个数据“dmoz:dupefilter”是用来存储抓取过的url的指纹(使用哈希函数将url运算后的结果),是防止重复抓取的!

本文版权声明本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请联系本站客服,一经查实,本站将立刻删除。

发表评论

热门推荐