分布式数据库和Hadoop都不够好，于是我们设计分布式SQL计算系统 (分布式数据库和集中式数据库区别)

技术教程 2025-05-14 10:38:15 浏览次

分布式数据库和Hadoop都不够好，于是我们设计分布式SQL计算系统

2017-06-22 08:25:27为了解决分布式数据库下，复杂的 SQL(如全局性的排序、分组、join、子查询，特别是非均衡字段的这些逻辑操作)难以实现的问题;在有了一些分布式数据库和 Hadoop 实际应用经验的基础上，对比两者的优点和不足，加上自己的一些提炼和思考, 设计了一套综合两者的系统，利用两者的优点，补充两者的不足。

设计思想

为了解决分布式数据库下，复杂的 SQL(如全局性的排序、分组、join、子查询，特别是非均衡字段的这些逻辑操作)难以实现的问题;在有了一些分布式数据库和 Hadoop 实际应用经验的基础上，对比两者的优点和不足，加上自己的一些提炼和思考, 设计了一套综合两者的系统，利用两者的优点，补充两者的不足。具体的说，使用数据库水平分割的思想实现数据存储，使用 MapReduce的思想实现 SQL 计算。

这里的数据库水平分割的意思是只分库不分表，对于不同数量级别的表，分库的数量可以不一样，例如 1 亿的数据量分 10 个分库，10 亿的分 50 个分库。对于使用 MapReduce的思想实现计算 ; 对于一个需求，转换成一个或多个有依赖关系的SQL，其中的每个SQL分解成一个或多个 MapReduce任务，每个 MapReduce任务又包含 mapsql、洗牌(shuffle)、reducesql，这个过程可以理解为类似 hive，区别是连 MapReduce任务中的 map 和 reduce 操作也是通过 SQL 实现, 而非 Hadoop 中的 map 和 reduce 操作.

这是基本的 MapReduce的思想，但是在 Hadoop 的生态圈中, ***代的MapReduce将结果存储于磁盘，第二代的 MapReduce根据内存使用情况将结果存储于内存或磁盘，类比一下用数据库来存储，那么 MapReduce 的结果就是存储在表中，而数据库的缓存机制天然支持根据内存情况决定存储在内存还是磁盘 ; 另外，Hadoop 生态圈中, 计算模型也并非一种，这里的 MapReduce的计算思想，可以用类似 spark 的 RDD 迭代计算方式来替代 ; 本系统还是基于MapReduce来说明的。

架构

根据以上的思想, 系统的架构如下：

没有代理节点

有代理节点

模块说明

关于系统中的模块，由于和绝大部分的分布式系统类似，这里仅做简要说明：

两种架构的区别

无代理节点的时候，客户端担负着比较大的工作，包括：发送请求、解析 SQL、生成执行计划、申请资源、安排执行、获取结果等;有代理节点的时候，代理节点担负着接受请求、解析 SQL、生成执行计划、申请资源、安排执行、返回结果给客户端等大部分责任，另外代理节点提供支持外部协议的接口，如 mysql 的 c/s 协议，使用 mysql 的命令行可以直接连接进来执行 SQL，整个系统就像普通的 mysql server 一样。

应用架构

实际应用环境可能是正式环境一套, 正式备份环境一套, 线下环境一套, 可以按照如下的架构进行部署。

基本概念说明

下面针对架构中的一些概念做些说明

下面说明常用的增删改查如何执行, 特别是查询操作

增删改操作

当插入数据的时候，根据均衡字段和均衡策略将记录插入到对应的数据库节点中。

当更新数据的时候，需要根据均衡策略判断数据更新前的和更新后的数据库节点是否变化：如果没有变化，直接更新;如果有变化，在更新前的数据库节点中删除老数据，在更新后的数据库节点中插入新数据。

当删除数据的时候，根据均衡策略在相应的数据库节点中删除。

这三种变更数据的操作，只要涉及到多个节点的数据变更，都需要使用分布式事务保证一致性、原子性等事务特性。

查询操作

查询操作的原理类似 hive，大家可以对比来理解 ; 为了方便解释查询操作, 首先来说明阶段树和阶段的结构，如下图所示：

阶段树

阶段

查询步骤

结合上面的图, 查询操作的具体过程如下:

将输入 SQL 经过词法、语法、语义分析，集合表结构信息和数据分布信息，生成包含多个阶段(简称 stage)的执行计划，这些阶段具有一定的依赖关系，形成多输入单输出的任务树。

每个阶段包括两种 SQL，称为 mapsql 和 reducesql，另外每个阶段包括三个操作，map、数据洗牌和 reduce;map 和 reduce 分别执行 mapsql 和 reducesql。

先在不同的数据库节点中执行 map 操作，map 操作执行 mapsql，它的输入是每个数据库节点上的表内部的数据，输出根据某个字段按照一定的规则进行分割，放到不同的结果集中，结果集作为数据洗牌的输入。

然后执行数据洗牌的过程，将不同结果集拷贝到不同的将要执行 reduce 的数据库节点上。

在不同的数据库节点中执行 reduce 操作，reduce 操作执行 reducesql;

***返回结果。

例子

由于系统核心在于存储和计算, 下面对存储和计算相关的概念举例说明

均衡策略

举例说明均衡策略，基本信息如下：表名字：tab_user_login表描述：用于存储用户登录信息节点数：4，分为 0、1、2、3

举例说下如下的几种策略：

列表：以登录省份作为均衡字段为例

取模 hash：按 4 取模, 以用户 id 作为均衡字段

范围: 从 0 到一亿，以用户 id 作为均衡字段

取模 hash 和范围结合：先范围，再取模, 以用户 id 作为均衡字段

查询

举例说明查询操作，基本信息如下：

用户表 tab_user_info 如下：

用户登录表 tab_login_info 的结构如下：

排序排序的关键点是节点之间存在大小关系，大的 key 或者 key 范围放到节点 id 大的节点上，然后在节点上排序，获取数据的时候根据节点 id 大小依次获取。

以如下 sql 为例，某一注册时间范围内的用户信息，按照年龄和 id 排序：

执行计划可能为：

执行完成之后，这种情况下由于需要按照 u_id 进行数据洗牌，所以各个存储节点上需要按照 u_id 进行划分。例如有 N 个计算节点，那么按照(*** u_id- 最小 u_id)/N 平均划分，将不同存储节点上的同一范围的 u_id，划分到同一个计算节点上即可(这里的计算节点存在大小关系)。

分组聚合关键点和排序类似，节点之间存在大小关系，大的 key 或者 key 范围放到节点 id 大的节点上，然后在节点上分组聚合，获取数据的时候根据节点 id 大小依次获取。

以如下 sql 为例，某一注册时间范围内的用户，按照年龄分组，计算每个分组内的用户数：

执行计划可能为：

执行完成之后，这种情况下由于需要按照 age 进行数据洗牌，考虑到 age 的唯一值比较少，所以数据洗牌可以将所有的记录拷贝到同一个计算节点上。

连接

首先明确 join 的字段类型为数字类型和字符串类型，其他类型如日期可以转换为这两种。数字类型的排序很简单，字符串类型的数据排序需要确定规则，类似 mysql 中的 collation，比较常用的是按照 unicode 编码顺序，按照实际存储节点的大小等;其次 join 的方式有等值 join 和非等值 join;以如下常用且比较简单的情况为例。

以如下 sql 为例，某一注册时间范围内的用户的所有登录信息：

执行计划可能为：

由于是 join，所有的表都要进行查询操作，并且为每张表打上自己的标签，具体实施的时候可以加个表名字字段，在所有存储节点上执行

Shuffle：这种情况下由于需要按照 u_id 进行数据洗牌，考虑到 u_id 的唯一值比较多，所以各个存储节点上需要按照 u_id 进行划分，例如有 N 个计算节点，那么按照(*** u_id- 最小 u_id)/N 平均划分，将不同存储节点上的同一范围的 u_id，划分到同一个计算节点上。

子查询由于子查询可以分解成具有依赖关系的不包含子查询的 SQL，所以生成的执行计划，就是多个 SQL 的执行计划按照一定的依赖关系进行依次执行。

与已有系统的区别和优点

基于以上，可以把线上系统(主系统)和线下的数据分析挖掘(从系统)做成统一的方案, 参见应用架构图。

分布式数据库和Hadoop都不够好 应用场景

***列举一些应用场景

下列软件中属于应用软件的是( ) A. 操作系统 B. 编译程序 C. 数据库管理系统 D. 财务管理系统

选D、财务管理系统。 A、操作系统 B、编译程序 C、数据库管理系统三个选项都是指系统软件。系统软件为计算机使用提供最基本的功能，使得计算机使用者和其他软件将计算机当作一个整体而不需要顾及到底层每个硬件是如何工作的。扩展资料：应用软件的用途分类：1、办公室软件：文书试算表程式投影片报告数学程式创建编辑器绘图程式基础数据库档案管理系统文本编辑器。 2、互联网软件：即时通讯软件电子邮件客户端网页浏览器客户端下载工具。 3、商务软件：会计软件企业工作流程分析客户关系管理Backoffice企业资源规划供应链管理产品生命周期管理4、分析软件：计算机代数系统统计软件数字计算计算机辅助工程设计5、多媒体软件：媒体播放器图像编辑软件音讯编辑软件视讯编辑软件计算机辅助设计计算机游戏桌面排版参考资料来源：网络百科-软件参考资料来源：网络百科-应用软件

oracle数据库的后台进程有哪些

DBWR进程：该进程执行将缓冲区写入数据文件，是负责缓冲存储区管理的一个ORACLE后台进程。当缓冲区中的一缓冲区被修改，它被标志为“弄脏”，DBWR的主要任务是将“弄脏”的缓冲区写入磁盘，使缓冲区保持“干净”。由于缓冲存储区的缓冲区填入数据库或被用户进程弄脏，未用的缓冲区的数目减少。当未用的缓冲区下降到很少，以致用户进程要从磁盘读入块到内存存储区时无法找到未用的缓冲区时，DBWR将管理缓冲存储区，使用户进程总可得到未用的缓冲区。 ORACLE采用LRU（LEAST RECENTLY USED）算法（最近最少使用算法）保持内存中的数据块是最近使用的，使I/O最小。在下列情况预示DBWR 要将弄脏的缓冲区写入磁盘：当一个服务器进程将一缓冲区移入“弄脏”表，该弄脏表达到临界长度时，该服务进程将通知DBWR进行写。该临界长度是为参数DB-BLOCK-WRITE-BATCH的值的一半。当一个服务器进程在LRU表中查找DB-BLOCK-MAX-SCAN-CNT缓冲区时，没有查到未用的缓冲区，它停止查找并通知DBWR进行写。出现超时（每次3秒），DBWR 将通知本身。当出现检查点时，LGWR将通知DBWR.在前两种情况下，DBWR将弄脏表中的块写入磁盘，每次可写的块数由初始化参数DB-BLOCK- WRITE-BATCH所指定。如果弄脏表中没有该参数指定块数的缓冲区，DBWR从LUR表中查找另外一个弄脏缓冲区。如果DBWR在三秒内未活动，则出现超时。在这种情况下DBWR对LRU表查找指定数目的缓冲区，将所找到任何弄脏缓冲区写入磁盘。每当出现超时，DBWR查找一个新的缓冲区组。每次由DBWR查找的缓冲区的数目是为寝化参数DB-BLOCK- WRITE-BATCH的值的二倍。如果数据库空运转，DBWR最终将全部缓冲区存储区写入磁盘。在出现检查点时，LGWR指定一修改缓冲区表必须写入到磁盘。 DBWR将指定的缓冲区写入磁盘。在有些平台上，一个实例可有多个DBWR.在这样的实例中，一些块可写入一磁盘，另一些块可写入其它磁盘。参数DB-WRITERS控制DBWR进程个数。 LGWR进程：该进程将日志缓冲区写入磁盘上的一个日志文件，它是负责管理日志缓冲区的一个ORACLE后台进程。 LGWR进程将自上次写入磁盘以来的全部日志项输出，LGWR输出：当用户进程提交一事务时写入一个提交记录。每三秒将日志缓冲区输出。当日志缓冲区的1/3已满时将日志缓冲区输出。当DBWR将修改缓冲区写入磁盘时则将日志缓冲区输出。 LGWR进程同步地写入到活动的镜象在线日志文件组。如果组中一个文件被删除或不可用，LGWR 可继续地写入该组的其它文件。日志缓冲区是一个循环缓冲区。当LGWR将日志缓冲区的日志项写入日志文件后，服务器进程可将新的日志项写入到该日志缓冲区。 LGWR 通常写得很快，可确保日志缓冲区总有空间可写入新的日志项。注意：有时候当需要更多的日志缓冲区时，LWGR在一个事务提交前就将日志项写出，而这些日志项仅当在以后事务提交后才永久化。 ORACLE使用快速提交机制，当用户发出COMMIT语句时，一个COMMIT记录立即放入日志缓冲区，但相应的数据缓冲区改变是被延迟，直到在更有效时才将它们写入数据文件。当一事务提交时，被赋给一个系统修改号（SCN），它同事务日志项一起记录在日志中。由于SCN记录在日志中，以致在并行服务器选项配置情况下，恢复操作可以同步。 CKPT进程：该进程在检查点出现时，对全部数据文件的标题进行修改，指示该检查点。在通常的情况下，该任务由LGWR执行。然而，如果检查点明显地降低系统性能时，可使CKPT进程运行，将原来由LGWR进程执行的检查点的工作分离出来，由 CKPT进程实现。对于许多应用情况，CKPT进程是不必要的。只有当数据库有许多数据文件，LGWR在检查点时明显地降低性能才使CKPT运行。 CKPT进程不将块写入磁盘，该工作是由DBWR完成的。初始化参数CHECKpoiNT-PROCESS控制CKPT进程的使能或使不能。缺省时为FALSE，即为使不能。 SMON进程：该进程实例启动时执行实例恢复，还负责清理不再使用的临时段。在具有并行服务器选项的环境下，SMON对有故障CPU或实例进行实例恢复。 SMON进程有规律地被呼醒，检查是否需要，或者其它进程发现需要时可以被调用。 PMON进程：该进程在用户进程出现故障时执行进程恢复，负责清理内存储区和释放该进程所使用的资源。例：它要重置活动事务表的状态，释放封锁，将该故障的进程的ID从活动进程表中移去。 PMON还周期地检查调度进程（DISPATCHER）和服务器进程的状态，如果已死，则重新启动（不包括有意删除的进程）。 PMON有规律地被呼醒，检查是否需要，或者其它进程发现需要时可以被调用。 RECO进程：该进程是在具有分布式选项时所使用的一个进程，自动地解决在分布式事务中的故障。一个结点RECO后台进程自动地连接到包含有悬而未决的分布式事务的其它数据库中，RECO自动地解决所有的悬而不决的事务。任何相应于已处理的悬而不决的事务的行将从每一个数据库的悬挂事务表中删去。当一数据库服务器的RECO后台进程试图建立同一远程服务器的通信，如果远程服务器是不可用或者网络连接不能建立时，RECO自动地在一个时间间隔之后再次连接。 RECO后台进程仅当在允许分布式事务的系统中出现，而且DISTRIBUTED ？C transactionS参数是大于进程：该进程将已填满的在线日志文件拷贝到指定的存储设备。当日志是为ARCHIVELOG使用方式、并可自动地归档时ARCH进程才存在。 LCKn进程：是在具有并行服务器选件环境下使用，可多至10个进程（LCK0，LCK1……，LCK9），用于实例间的封锁。 Dnnn进程（调度进程）：该进程允许用户进程共享有限的服务器进程（SERVER PROCESS）。没有调度进程时，每个用户进程需要一个专用服务进程（DEDICATEDSERVER PROCESS）。对于多线索服务器（MULTI-THREADED SERVER）可支持多个用户进程。如果在系统中具有大量用户，多线索服务器可支持大量用户，尤其在客户_服务器环境中。在一个数据库实例中可建立多个调度进程。对每种网络协议至少建立一个调度进程。数据库管理员根据操作系统中每个进程可连接数目的限制决定启动的调度程序的最优数，在实例运行时可增加或删除调度进程。多线索服务器需要SQL*NET版本2或更后的版本。在多线索服务器的配置下，一个网络接收器进程等待客户应用连接请求，并将每一个发送到一个调度进程。如果不能将客户应用连接到一调度进程时，网络接收器进程将启动一个专用服务器进程。该网络接收器进程不是ORACLE实例的组成部分，它是处理与ORACLE有关的网络进程的组成部分。在实例启动时，该网络接收器被打开，为用户连接到ORACLE建立一通信路径，然后每一个调度进程把连接请求的调度进程的地址给予于它的接收器。当一个用户进程作连接请求时，网络接收器进程分析请求并决定该用户是否可使用一调度进程。如果是，该网络接收器进程返回该调度进程的地址，之后用户进程直接连接到该调度进程。有些用户进程不能调度进程通信（如果使用SQL*NET以前的版本的用户），网络接收器进程不能将如此用户连接到一调度进程。在这种情况下，网络接收器建立一个专用服务器进程，建立一种合适的连接.即主要的有：DBWR,LGWR,SMON 其他后台进程有PMON,CKPT等

sql语句中having的作用是？

HAVING语句通常与GROUP BY语句联合使用，用来过滤由GROUP BY语句返回的记录集。 HAVING语句的存在弥补了WHERE关键字不能与聚合函数联合使用的不足。语法：SELECT column1, column2, ... column_n, aggregate_function (expression)FROM tablesWHERE predicatesGROUP BY column1, column2, ... column_nHAVING condition1 ... condition_n;同样使用本文中的学生表格，如果想查询平均分高于80分的学生记录可以这样写：SELECT id, COUNT(course) as numcourse, AVG(score) as avgscoreFROM studentGROUP BY idHAVING AVG(score)>=80;在这里，如果用WHERE代替HAVING就会出错。扩展资料：结构化查询语言(Structured Query Language)简称SQL(发音：/ˈes kjuː ˈel/ S-Q-L)，是一种特殊目的的编程语言，是一种数据库查询和程序设计语言，用于存取数据以及查询、更新和管理关系数据库系统；同时也是数据库脚本文件的扩展名。结构化查询语言是高级的非过程化编程语言，允许用户在高层数据结构上工作。它不要求用户指定对数据的存放方法，也不需要用户了解具体的数据存放方式，所以具有完全不同底层结构的不同数据库系统, 可以使用相同的结构化查询语言作为数据输入与管理的接口。结构化查询语言语句可以嵌套，这使它具有极大的灵活性和强大的功能。参考资料：SQL网络百科