Cloudera和Hortonworks宣布合并-对Hadoop的一记重创！ (cloude人工智能)

教程大全 2025-07-13 06:44:50 浏览次

Cloudera和Hortonworks宣布合并：对Hadoop的一记重创！

2018-10-12 14:01:14近日，大数据领域的两大巨头公司Cloudera和Hortonworks宣布平等合并，Cloudera以股票方式收购Hortonworks，Cloudera股东最终获得合并公司60%的股份。这笔交易意味着Hadoop市场再也无法维持两大竞争对手对峙的状态了。

近日，大数据领域的两大巨头公司Cloudera和Hortonworks宣布平等合并，Cloudera以股票方式收购Hortonworks，Cloudera股东最终获得合并公司60%的股份。这笔交易意味着Hadoop市场再也无法维持两大竞争对手对峙的状态了。

在Hadoop的世界中，规模最大、知名度最高的公司就是Cloudera。Cloudera努力为开源Hadoop提供支持，同时将数据处理框架延伸到一个全面的“企业数据中心”范畴。Hortonworks也是企业级全球数据管理平台，同时也是服务和解决方案的领先供应商，为100强企业中的一多半提供‘任何类型数据’的可操作信息。此次最大的两家数据服务商Cloudera和Hortonworks宣布合并，表示要创建世界领先的数据平台。

本次交易要点：

1、创建世界领先的数据平台，增加规模和资源，提供业界第一个企业级数据云，提高公共云的易用性和灵活性;

2、制定清晰的行业标准;

3、加速市场发展，推动物联网、流媒体、数据仓库、混合云、机器学习、人工智能等领域的创新

4、利用补充产品扩大市场机会，包括Hortonworks>服务器收入连续下降。前三大云提供商(占云市场份额的90%)提供自己的托管Hadoop/Spark服务，例如亚马逊的Elastic Map Reduce(EMR)。这些都是完全集成的产品，具有较低的购置成本并且更便宜。如果企业正在转向云计算，那么选择这类将Hadoop产品视为其中一部分的云平台既省时又省力，这几乎是一个很自然的决策。并且，具有讽刺意味的是，Cloudera并没有加入云时代，这个在Hadoop上优势明显的公司并未发掘这一先机。

存储成本降低

第二大趋势是什么?云存储的经济性正在碾压Hadoop的存储成本。在2005年推出时，Hadoop分布式文件系统(HDFS)是革命性的一大改进，它将服务器与普通硬盘驱动器结合，并将它们转变为能够由java应用程序兼容并行IO的分布式存储系统。当时，我们没有类似的东西可以选择，它就是一个关键组件，允许并行处理不适合单个机器运行的大规模数据集。但那是13年前的事了，如今有许多便宜得多的替代品，主要是对象存储服务，如AWS S3，Azure BLOB存储和Google云端存储。一个TB的云对象存储成本约每月20美元，而HDFS每月约100美元(不包括运营成本)。例如，谷歌的HDFS服务仅仅是将HDFS操作转换为对象存储操作，但价格却便宜了5倍。

更快，更好，更便宜的云数据库

Hadoop的问题并不止于此，因为它不仅受到云供应商Hadoop/Spark服务和对象存储服务的直接竞争。第三大趋势是“无服务器”，它的出现完全消除了运行Hadoop或Spark的需要。Spark的一个常见用例是为用户处理ad-hoc分布式SQL查询。谷歌率先在2011年推出了名为BigQuery的革命性服务，以完全不同的方式解决了同样的问题。它允许对存储在其对象存储服务中的任何数据量运行即席查询(无需将其加载到HDFS等特殊存储中)，用户只需为计算时间付费：如果需要1,000个core，只需3.5秒即可运行查询，这就是所支付的全部费用。企业无需配置服务器、安装操作系统、安装软件、配置所有内容以将集群扩展到1,000个节点，以及像Hadoop/Spark一样提供和关注集群。谷歌做了所有这些繁琐的工作，因此这个名字叫“无服务器”。有些银行运行着2000个节点的Hadoop/Spark集群，由数十名IT人员操作和维护，无法与BigQuery的灵活性、速度和规模相匹敌，还必须支付所有硬件、软件和人员费用才能运行和维护Hadoop。

BigQuery就是一个例子。其他云数据库服务同样具有大规模，高度灵活，全球分布等特点。初创公司Snowflake，Google Big Table，AWS Aurora和Microsoft Cosmos等，他们所提供的服务比安装Hadoop/Spark更容易使用，用户可以在5分钟内启动并运行，整个过程只需要数十美元，不需要50万美元的采购订单和数周的安装、配置和培训。

容器、Kubernetes和机器学习

第四大趋势是容器和Kubernetes。 Hadoop / Spark不仅仅是一个存储环境，也是一个计算环境。同样，早在2005年，Hadoop的另一个革命性产品诞生，这就是MapReduce，Map-Reduce方法为Java应用程序的并行计算提供了框架。但Cloudera和Hortonworks基础设施以Java为中心(以Scala为中心的Spark)与今天的数据科学家在Python和R中进行机器学习是不一致的。企业需要不断迭代和改进机器学习模型并让其学习生产数据，这就意味着Python和R模型是本地部署所必需的，如果你希望借助机器学习的能力。

容器和Kubernetes与Python和R一样，为分布式计算提供了更加灵活和强大框架。无论如何，这些都是软件开发团队的目标，他们或许并不打算在Hadoop/Spark之上分发新的微服务应用程序，因为这过于复杂和有所限制。

经过了近10年，Cloudera和Hortonworks才得以成为大数据世界的中心，然而，如今大数据的重心已经转移到其他地方。领先的云计算公司没有像Cloudera和Hortonworks一样运行大型Hadoop/Spark集群，他们更喜欢在容器等之上运行分布式云数据库和应用程序。他们使用Python，R和其他非Java语言进行机器学习。越来越多的企业正在转向类似的方法，因为他们希望获得相同的速度和规模效益。

本文作者

Mathew Lodge是Anaconda的产品和营销高级副总裁。他在云计算和产品方面拥有20多年的丰富经验。在加入Anaconda之前，他曾担任Weaveworks的首席运营官，Weaveworks是容器和微服务网络和管理初创公司; 他曾担任VMware云服务部门的副总裁，并共同创立了VMware的vCloud Air IaaS服务。

Microsoft全球发布了SQL Server 2012 RTM。 ITPro们都在翘首以盼的期待SQL Server 2012的新特性。下面就让我们来看一下SQL Server 2012在云计算时代都为我们带来了那些激动人心的功能。 1. AlwaysOn Availability Groups 这项新功能将数据库镜像故障转移提升到全新的高度，利用AlwaysOn，用户可以将多个组进行故障转移，而不是以往的只是针对单独的数据库。此外，副本是可读的，并可用于数据库备份。更大的优势是SQL Server 2012简化HA和DR的需求。 2. Windows Server Core Support 在Windows Server产品中你可以向Ubuntu Server一样只安装核心（意味着你的系统不具备GUI）。这么做所带来的优势是减少硬件的性能开销（至少50%的内存和硬盘使用率）。同时安全性也得到提升（比安装图形版更少的漏洞）。从SQL Server 2012开始将对只安装核心的Windows Server系统提供支持。 3. Columnstore Indexes 这是一个相当酷的功能，是SQL Server之前版本都不具备的。特殊类型的只读索引专为数据仓库查询设计。数据进行分组并存储在平面的压缩的列索引。在大规模的查询情况下可极大的减少I/O和内存利用率。 4. User-Defined Server Roles DBA已经具备了创建自定义数据库角色的能力，但在服务器中却不能。例如DBA想在共享服务器上为开发团队创建每个数据库的读写权限访问，传统的途径手动配置或使用没有经过认证的程序。显然这不是良好的解决方案。而在SQL Server 2012中，DBA可以创建在服务器上具备所有数据库读写权限以及任何自定义范围角色的能力。 5. Enhanced Auditing Features 现今所有的SQL Server版本都具备审计功能，用户还可以自定义审计策略，以及向审计日志中写入自定义事件。而在SQL Server 2012中提供过滤功能，同时大幅提高灵活性。 6．BI Semantic Model BI Semantic Model代替了ASUDM（Analysis Services Unified Dimensional Model ）。 BI Semantic Model这种混合的模式允许数据模型支持所有SQL Server BI实践，此外还可允许一些整洁的文本信息图图表。 7. Sequence Objects 对于使用Oracle的人说，这是他们长期希望拥有的功能。序列仅仅是计数器的对象，一个好的方案是在基于触发器表使用增量值。 SQL一直具有类似功能，但现在显然与以往不同。 8. Enhanced PowerShell Support Windows和SQL Server管理员现在就要开始提高他们PowerShell的脚本技能了。 Microsoft为了推动其服务器产品上PowerShell的发展做出了很大的努力。在SQL Server 2008中DBA以及有所体会，在SQL Server 2012中增加了更多的cmdlet。 9. Distributed Replay Oracle已经拥有类似的功能（Real AppliCation Testing），但单独购买会非常昂贵，而SQL Server 2012则包括了Distributed Replay。 Distributed replay功能可让管理员记录服务器上的工作负载，并在其他的服务器上重现。这种在底层架构上的变化支持包以及在生产测试环境下对硬件更改。 10. PowerView 你也许曾听说过这个名为Crescent的项目，这是相当强大的自服务BI工具包，允许用户创建企业级的BI报告。 11. SQL Azure Enhancements 虽然这与Microsoft释放出的SQL Server 2012并无直接联系，但Microsoft正在SQL Azure做关键的改进。 Azure现已具备Reporting Services以及备份Azure数据存储的能力，这是个不小的进步。 Azure现在允许最大150GB的数据库。同时Azure数据同步可更好适应混合模型和云中部署的解决方案。 12. Big Data Support 在去年的PASS (Professional Association for SQL Server)峰会上，Microsoft宣布与Hadoop供应商Hortonworks合作，并计划发布Linux版本的Microsoft SQL Server ODBC驱动程序。同时Microsoft也在构建Hadoop连接器，Microsoft表示，随着新连接工具的出现，客户将能够在Hadoop、SQL Server和并行数据仓换环境下相互交换数据。 Microsoft已经在大数据领域表明了自己的立场。 SQL Server 2012对于Microsoft来说绝对是重大的更新。 Microsoft的目标就是致力成为提高大数据可用性和未来发展的引领厂商。