云计算时代的MySQL-Sierra分布式数据库系统-Clustrix (云计算时代的云是指什么)

教程大全 2025-07-08 23:13:14 浏览次

Clustrix Sierra分布式数据库系统：云计算时代的MySQL

2013-05-08 09:40:41Clustrix在两年前曾推出了一个可高度扩容的伸缩式数据库解决方案Sierra，它提供了和SQL数据库相似的功能，同时还可以对数据存储进行扩展。Clustrix Sierra在业内被称之为云计算时代的MySQL。

NewSQL数据库初创公司 Clustrix最近获得1650万美元的C轮融资，该轮融资的投资方包括红杉资本(Sequoia Capital)、U.S. Venture Partners以及ATA Ventures。而截至目前为止，这家成立于2005年的创新公司总融资金额已经高达4650万美元。Clustrix公司总部在旧金山，在2006年曾是 Y Combinator资助的一个创业项目。

Clustrix在两年前曾推出了一个可高度扩容的伸缩式数据库解决方案Sierra，它提供了和SQL数据库相似的功能，同时还可以对数据存储进行扩展。Clustrix Sierra在业内被称之为云计算时代的MySQL。

公司的CEO Robin Purohit告诉记者：“我们已经在世界上多家云平台之上运行了自己的应用，但是现在我们的目标是将这个分布式系统开放给开发者。”而且最近Clustrix在AWS平台上发布了专有的数据库5.0新版本。当然该版本在Rackspace、GoGrid、Equinix以及BlueBoxGroup等平台上也可以运行。 (2010年，在Clustrix 初始版本发布的时候，GigaOM的记者Stacey Higginbotham对该产品也做了报道。)

Clustrix Sierra

Clustrix Sierra是一款分布式数据库系统，它既支持最简单的Key-Value格式，又兼容MySQL的功能，同时能非常简单通过添加新的节点来存储数十亿条数据。它的功能主要体现在下面这四个方面：

扩展和高可用性方面：只要添加一个节点，就能在吞吐量等性能指标上实现线性提升，最多能扩展到几百个节点。

速度方面：其解决传统数据库写数据慢的情况，并保证了读数据的速度。

兼容MySQL：其支持MySQL所有功能，并支持ACID(Atomicity, Consistency, Isolation, Durability)，而且在迁移现有MySQL方面非常方便。

在线修改和扩展方面：不仅能在生产环境中动态添加新的节点，而且能在在线的情况下修改数据库的表结构。

运作机制

首先，Clustrix Sierra系统主要有三个核心模块组成：其一是Distributed Query Compiler(分布式查询编译器)。其二是分布式Shared-Nothing执行引擎(Execution Engine)。其三是支持同步事务(ransactional concurrent)的存储引擎(Storage Engine)。而且整个系统通过整合这三大核心模块来实现其主要功能。Clustrix Sierra数据库架构图如下：

运行流程

当很多查询发送至Front-end Network，系统会通过Database Personality Module来将这些查询翻译成系统内部的格式，接着系统会通过上面提到的Distributed Query Compiler和执行引擎以并行的些查询，并通过存储引擎在SSD上来存储数据，在NVRAM上存储日志方面的修改，最后通过Infiniband来在多个节点之间进行通信和同步。

memcached和redis的区别

medis与Memcached的区别传统MySQL+ Memcached架构遇到的问题　实际MySQL是适合进行海量数据存储的，通过Memcached将热点数据加载到cache，加速访问，很多公司都曾经使用过这样的架构，但随着业务数据量的不断增加，和访问量的持续增长，我们遇到了很多问题：　需要不断进行拆库拆表，Memcached也需不断跟着扩容，扩容和维护工作占据大量开发时间。与MySQL数据库数据一致性问题。数据命中率低或down机，大量访问直接穿透到DB，MySQL无法支撑。 4.跨机房cache同步问题。众多NoSQL百花齐放，如何选择　最近几年，业界不断涌现出很多各种各样的NoSQL产品，那么如何才能正确地使用好这些产品，最大化地发挥其长处，是我们需要深入研究和思考的问题，实际归根结底最重要的是了解这些产品的定位，并且了解到每款产品的tradeoffs，在实际应用中做到扬长避短，总体上这些NoSQL主要用于解决以下几种问题　1.少量数据存储，高速读写访问。此类产品通过数据全部in-momery 的方式来保证高速访问，同时提供数据落地的功能，实际这正是Redis最主要的适用场景。 2.海量数据存储，分布式系统支持，数据一致性保证，方便的集群节点添加/删除。 3.这方面最具代表性的是dynamo和bigtable 2篇论文所阐述的思路。前者是一个完全无中心的设计，节点之间通过gossip方式传递集群信息，数据保证最终一致性，后者是一个中心化的方案设计，通过类似一个分布式锁服务来保证强一致性,数据写入先写内存和redo log，然后定期compat归并到磁盘上，将随机写优化为顺序写，提高写入性能。 free，auto-sharding等。比如目前常见的一些文档数据库都是支持schema-free的，直接存储json格式数据，并且支持auto-sharding等功能，比如mongodb。面对这些不同类型的NoSQL产品,我们需要根据我们的业务场景选择最合适的产品。 Redis适用场景，如何正确的使用　前面已经分析过，Redis最适合所有数据in-momory的场景，虽然Redis也提供持久化功能，但实际更多的是一个disk-backed的功能，跟传统意义上的持久化有比较大的差别，那么可能大家就会有疑问，似乎Redis更像一个加强版的Memcached，那么何时使用Memcached,何时使用Redis呢?如果简单地比较Redis与Memcached的区别，大多数都会得到以下观点：　1Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，zset，hash等数据结构的存储。 2Redis支持数据的备份，即master-slave模式的数据备份。 3Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。抛开这些，可以深入到Redis内部构造去观察更加本质的区别，理解Redis的设计。在Redis中，并不是所有的数据都一直存储在内存中的。这是和Memcached相比一个最大的区别。 Redis只会缓存所有的 key的信息，如果Redis发现内存的使用量超过了某一个阀值，将触发swap的操作，Redis根据“swappability = age*log(size_in_memory)”计算出哪些key对应的value需要swap到磁盘。然后再将这些key对应的value持久化到磁盘中，同时在内存中清除。这种特性使得Redis可以保持超过其机器本身内存大小的数据。当然，机器本身的内存必须要能够保持所有的key，毕竟这些数据是不会进行swap操作的。同时由于Redis将内存中的数据swap到磁盘中的时候，提供服务的主线程和进行swap操作的子线程会共享这部分内存，所以如果更新需要swap的数据，Redis将阻塞这个操作，直到子线程完成swap操作后才可以进行修改。使用Redis特有内存模型前后的情况对比：　VM off: 300k keys, 4096 bytes values: 1.3G used　VM on:300k keys, 4096 bytes values: 73M used　VM off: 1 million keys, 256 bytes values: 430.12M used　VM on:1 million keys, 256 bytes values: 160.09M used　VM on:1 million keys, values as large as you want, still: 160.09M used当从Redis中读取数据的时候，如果读取的key对应的value不在内存中，那么Redis就需要从swap文件中加载相应数据，然后再返回给请求方。这里就存在一个I/O线程池的问题。在默认的情况下，Redis会出现阻塞，即完成所有的swap文件加载后才会相应。这种策略在客户端的数量较小，进行批量操作的时候比较合适。但是如果将Redis应用在一个大型的网站应用程序中，这显然是无法满足大并发的情况的。所以Redis运行我们设置I/O线程池的大小，对需要从swap文件中加载相应数据的读取请求进行并发操作，减少阻塞的时间。如果希望在海量数据的环境中使用好Redis，我相信理解Redis的内存设计和阻塞的情况是不可缺少的。

软件开发的薪金现状和未来发展趋势

查看文章软件工程未来发展趋势2009-07-16 10:22本文的意图是讨论软件工程的未来发展趋势，但是软件工程的发展不可能是孤立的，所以我们首先需要思考一下计算模型和软件开发本身的变化和趋势，再由此推测软件工程的发展趋势。从计算模型而言，应该来讲，传统的冯.诺依曼仍然被沿用；但从计算能力上来将，我们注意到了三个变化： ●CPU的运算能力按摩尔定律快速提升；但提升单颗CPU的计算能力已经越来越困难； ●并行运算技术以及多核多线程技术使服务器的处理能力飞速提升；服务器的处理能力不再是瓶颈，从而造成计算能力大量向服务器端迁移，C/S结构被无情抛弃，薄客户端（B/S结构）成为大势所趋； ●互联网的快速普及使得云计算成为可能，通过互联网相连的服务器集群在服务器端提供了更强大的计算能力；基于上述计算能力的变化，从软件开发模式而言，我们注意到以下六个相关的趋势： ●由于计算能力向服务器端的快速集中，提供高并行计算能力和可用性的中间件技术被广泛采用，甚至已经成为构建大型软件系统的必选项； ● 因为采用了中间件技术，软件开发团队可以更集中关注于业务逻辑，而可以将许多细节交给中间件来管理，从而大大减少了需要编写的代码行数，也直接导致了软件开发团队的规模变得越来越小，但角色变得越来越专业化（如了解行业的需求分析员，了解中间件技术和领域构架的架构师等）； ●计算能力的增强，使软件越来越易用，从而使软件变得无处不在，需要的软件开发人员数量急剧增长(组织形态是大量的小规模开发团队)；在这一因素以及降低成本的压力下，开发外包变得非常普及； ●为了使分布在互联网上系统能够互相协作，SOA成为一个热点； ●互联网的普及，将原来分散开发人员聚合在一起，只要有一个合适的基础和好的框架，他们就可以开发出产品级的工具软件（以Eclipse，JBoss，MySQL，Subversion为例），从而开源成为了一种趋势； ●B/S结构的系统非常容易升级，这使得软件交付和升级的速度大大加快了（从以年月为单位，到以周天为单位）；软件开发网回到正题，那么在这些大的趋势的作用下，软件工程会如何发展呢？我觉得在未来几年我们会看到如下的趋势： ●需求工程，渐成热点：专业化的角色，日益复杂的业务创新，全球分布的团队以及互联网级的交付速度，这些都对需求获取的正确性和有效性提出了更高的要求；我预计需求工程的研究和实施会成为近期的热点，其中Use Case技术会被更广泛而正确的应用，而相关工具的研发也会成为热点（如IBM Rational Requirements Composer,，Ravenflow等。用例的优势在于它天生是黑盒的，它用自然语言抽象了用户和目标系统的交互，避免了混入分析、设计和实现细节，以保证用例可以被不懂具体技术的业务及测试人员所真正理解。同时，需求分析员又可以方便地通过用例分析（use case analysis）（即用分析类来试图在理想方式下实现用例），将需求体系精华成分析模型。在这一过程中，需求分析员可以更进一步地完善基于用例的需求体系，而不必担心分析模型会污染需求，从而实现需求与分析的分离及有效互动。 ●DSSA和MDD，老树新花（基于领域的构架（DSSA）与模型驱动的开发（MDD））：随着软件应用的日益普及，软件已经超出了将手动流程自动化的范畴，而开始成为业务创新的主要推动力。因此，引入捕获特定领域内最先进需求及其实现架构的DSSA成为行业客户的热点之一。而且，DSSA的引入将MDD门槛大大降低了，也使基于DSSA 的MDD支撑工具成为可能，从而可以极大地提高开发效率并保证软件质量（例如，Telelogic的Rhapsody就是一个成功的基于实时嵌入式系统构架的MDD工具）。 ●迭代/敏捷，渐成标准：随着软件交付周期的日益加快，迭代化开发已经成为大多数软件开发团队的必选项。但是迭代对整个团队的需求、架构、协同及测试能力都提出了更高的要求，现在许多开发团队都在试图导入迭代化开发的过程中，敏捷可是被看成迭代化开发的一种导入方式，这不过敏捷的范围其实比迭代化开发更大一些。敏捷的三个要素是迭代开发、坦诚合作和自适应性。坦诚合作其实才是敏捷的精髓，如Ivar所说，敏捷其实是有关Social Engineering的。敏捷的主要贡献在于他更多地思考了如何去激发开发人员的工作热情，这是在软件工程几十年的发展过程中相对被忽略的领域。 ●持续集成，蓄势待发：持续集成是保证迭代化开发质量的主要方式，通过持续集成可以利用自动化的方式来尽量自动地、尽早保证代码质量。随着迭代和敏捷的流行，持续集成相关的工具成为现在市场上的新热点（如持续集成框架IBM Rational BuildForge, 开源软件CruiseControl，代码静态分析工具Klocwork Insight，IBM Rational Software Analyzer等）。持续集成是一个复杂的系统工程，组织需要首先将现有的配置管理/变更管理工具与Build环境紧密集成并完成自动化Build过程，在根据企业/项目/产品的现状，定义如何自动化地检测软件质量（代码静态分析、单元测试或冒烟测试），并定义需要自动化生成的管理报表。 ●基于实践的过程框架，方兴未艾：开发角色的专业化的和分布的全球化都要求软件开发过程更加规范，而敏捷又要求过程必须紧密贴合项目的实际需要，因此传统的大一统的过程无法符合这一需求。新一代的过程将是以实践为核心的，项目可以通过组装所需的不同实践来获得贴近项目要求的过程。 IJI（Ivar Jacobson International）的EssWork和IBM Rational的RMC都是新一代的基于实践的过程框架。依据过程专家长时间的经验，他（她）们很小心、很仔细地将一个完整的开发过程组件化，从开发过程抽象出一个个可以被单独导入又可以被组装到一起的实践，从而使逐步求精式的过程改进成为可能。对于一个软件组织而言，如果已经建立一个比较成熟的软件开发流程，但觉得这一流程并不适合所有项目的实际需要，那么目前可以考虑的是用实践的方式去重新梳理现有流程，以使项目组能够以实践为单位来组装出切合项目实际的流程；另外，该组织也可以将适用于本组织的业界流行的实践导入到现有流程当中，IJI公司的专家从业界最佳经验中抽取了八个实践，有关信息可访问（/ngp/）。 ●配置管理，昨日黄花：随着开发团队规模的日益减小，配置管理的复杂性大大降低了，我们注意到越来越多的用户转向使用开源的配置管理工具（如 Subeverison，JIRA，hosted-projects等等）；未来的配置管理工具更多的以一种全生命周期管理平台（Application Lifecycle Management）的方式出现，弱化了单项的配置管理能力而强调了全流程的整合（如Microsoft VisualStudio Team System和IBM Rational Team Concert等）。即便配置管理的复杂性降低了，但它仍然是开发项目管理的最重要的支撑平台之一。目前的重点应该是加强对项目经理进行有关配置管理知识的培训，让他（她）们理解到配置管理能力（如并行开发、基线回退等等）能够如何帮助项目开发过程的，从而使配置管理工具/环境的价值能够得到充分的发挥。作为结语，软件工程对软件开发的重要性我无须赘言了。虽然，我上面列出了一些软件工程的热点，但读者一定要仔细分析组织自身特点以确定软件工程的改进步骤，扎扎实实的逐步改进，而不应该盲目地追求热点！

学什么能去腾讯公司工作？

职位名称：产品/运营经理工作职责：负责创新中心产品规划和竞争策略制定，并在执行过程中进行修订和调整；挖掘和捕捉用户需求，在数据分析基础上提出新产品概念或者现有产品改进；沟通协调和产品相关的对内对外工作，例如技术，公关和外部伙伴；负责产品的日常运营和监控工作；职位要求：本科以上学历，两年以上互联网领域相关工作经验，对互联网市场有良好的触觉；熟悉互联网领域产品开发，管理和运营流程；能通过数据分析等系统性方法深刻理解用户需求并予以满足；良好的沟通能力和团队合作精神，出色的组织能力；有良好的学习能力和人格魅力、能承受压力；职位名称：前台开发工程师工作职责：负责WEB应用系统的前台开发工作；岗位要求：熟悉html/css/javaScript,深入了解AJAX的工作原理；熟悉网站架构设计和实际网站运作经验；有FLASH和actionscript方面的实际工作经验；有UI设计和网页可用性研究经验者优先；本科以上学历，3年以上相关工作经验；职位名称：后台开发工程师工作职责：负责WEB应用系统后台开发工作；岗位要求：熟悉LINUX/UNIX开发环境；熟悉C/C++ /MYSQL ，能够快速根据需求完成高性能数据库设计；熟悉面向对象的开发方法，有网络系统的开发经验；熟悉高性能，安全健壮网络后台架构，有大型分布式系统运维、开发经验；本科以上学历，3年以上相关工作经验；