Cloudera Distribution Including Apache Hadoop 5 (CDH5) 作为曾经业界广泛使用的企业级Hadoop发行版,提供了稳定、可靠且易于管理的大数据平台,其核心在于通过Cloudera Manager这一强大的管理工具,极大地简化了Hadoop生态组件的安装、配置、监控和运维过程,本文将系统性地介绍CDH5的安装与配置流程,旨在为读者提供一份清晰、详尽的实践指南。
环境准备与系统配置
在开始安装之前,充分的前期准备是确保集群稳定运行的关键,此阶段的工作主要涉及硬件、操作系统、网络和基础软件的配置。
系统与硬件要求 CDH5对操作系统有明确要求,通常推荐使用CentOS 6.x或7.x的稳定版本,所有集群节点(包括主节点和从节点)的硬件配置应根据业务负载进行规划,但最低建议如下:
网络与主机名配置
集群内所有节点必须能够通过主机名互相通信,并且主机名解析稳定,修改每台服务器的
/etc/hosts
文件,添加所有集群节点的IP地址和主机名映射,示例如下:
168.1.10 cdh-master192.168.1.11 cdh-worker1192.168.1.12 cdh-worker2
确保使用命令设置的主机名与
/etc/hosts
中的配置一致,为了简化安装,建议在安装期间关闭防火墙和SELinux,但在生产环境中应配置相应的防火墙规则。
SSH免密登录 Cloudera Manager Server需要通过SSH协议连接到所有Agent节点进行部署和管理,需要配置从Manager节点到所有其他节点的SSH免密登录,在Manager节点上执行:
# 生成密钥对ssh-keygen -t rsa# 将公钥分发到所有节点(包括自身)ssh-copy-id cloudera-scm@cdh-masterssh-copy-id cloudera-scm@cdh-worker1ssh-copy-id cloudera-scm@cdh-worker2
这里建议创建一个统一的用户(如
cloudera-scm
)用于集群管理。
article/20260222001212_33277.jpg" loading="lazy">
时钟同步与Java环境
Hadoop集群对时间同步极其敏感,节点间时钟偏差过大会导致集群工作异常,必须确保所有节点都安装并启动了NTP服务。
yum install -y ntpservice ntpd startchkconfig ntpd on
CDH5需要Java环境,通常推荐使用Oracle JDK 1.7或1.8,下载JDK安装包并配置好环境变量,确保所有节点版本一致。
Cloudera Manager与CDH5的安装
环境准备就绪后,可以开始核心的安装工作,整个流程以Cloudera Manager为中心展开。
安装Cloudera Manager Server 选择一台性能较好的服务器作为Manager节点,配置Cloudera的YUM仓库源。
wget-O /etc/yum.repos.d/cloudera-manager.repo
使用YUM命令安装Server软件包。
yum install -y cloudera-manager-server-dbyum install -y cloudera-manager-server
安装完成后,需要初始化Server的数据库,如果使用内嵌的PostgreSQL数据库,可直接运行初始化脚本:
/usr/share/cmf/schema/scm_prepare_database.sh postgresql scm scm scm_password
启动Cloudera Manager Server服务:
service cloudera-scm-server start
启动过程需要几分钟,可以通过查看日志
/var/log/cloudera-scm-server/cloudera-scm-server.log
来跟踪进度。
安装Cloudera Manager Agent 在 所有 节点(包括Manager节点)上执行Agent的安装,同样,先确保YUM仓库源已配置。
yum install -y cloudera-manager-agent
安装后,需要修改Agent的配置文件
/etc/cloudera-scm-agent/config.ini
,将其中的
server_host
指向Manager节点的主机名。
server_host=cdh-master
保存后,启动Agent服务:
service cloudera-scm-agent start
通过WEB UI进行集群安装
当Server和所有Agent都启动成功后,便可以通过浏览器访问Cloudera Manager的Web界面:
,默认管理员用户名和密码均为。登录后,系统会引导你完成一个安装向导:
服务配置与优化
安装完成后,Cloudera Manager提供了强大的配置管理界面,你可以根据集群的硬件资源和业务需求,对各项服务进行精细化调优,以下是一些关键服务的核心配置参数示例:
| 服务 | 关键参数 | 建议配置/说明 |
|---|---|---|
dfs.Replication
|
数据块副本数,生产环境通常设为3,测试环境可设为2。 | |
NameNode Heap Size
|
NameNode的堆内存大小,根据元数据量设置,通常建议8GB以上。 | |
NodeManager Memory
|
NodeManager可用的物理内存总量,通常设为服务器物理内存的70%-80%。 | |
yarn.scheduler.minimum-allocation-mb
|
YARN容器可申请的最小内存。 | |
maxClientCnxns
|
单个客户端IP地址的最大连接数,默认为60,可根据需要调整。 |
在Cloudera Manager界面中,进入对应服务的“配置”页面,搜索上述参数即可进行修改,修改后需保存配置并重启相关服务才能生效。
小编总结与注意事项
CDH5的安装配置是一个系统性工程,从前期的环境规划到后期的服务调优,每一步都至关重要,Cloudera Manager极大地降低了部署的复杂性,但深入理解Hadoop各组件的原理和配置项,仍然是运维好一个大数据集群的基础。
特别提醒 :CDH5版本已停止官方支持(End of Life, EOL),不再接收安全更新和功能补丁,对于新项目,强烈建议使用Cloudera的最新平台CDP(Cloudera>相关问答FAQs
Q1: 在Cloudera Manager中,为什么我的Agent节点健康状态显示为“不良”或“时钟偏差”? 这是最常见的两个问题。“不良”状态通常由多种原因引起,但最常见的是 时钟同步问题 和 网络/防火墙问题 ,请务必在所有节点上检查并启动NTP服务,使用命令确认同步状态,确保Manager节点的7180端口和Agent节点的端口(默认9000左右)在防火墙中是开放的,对于“时钟偏差”的明确告警,其根本原因就是节点间系统时间不一致,解决方案就是严格配置NTP服务,保证所有节点时间同步。
Q2: 安装完成后,如何修改HDFS的默认副本数?
修改HDFS副本数分为两种情况,第一种是
修改已存在文件的副本数
,可以使用HDFS Shell命令递归地修改某个目录下所有文件的副本数,将
/user/hive/warehouse
目录下所有文件的副本数改为2:
hdfs dfs -setrep -R 2 /user/hive/warehouse
第二种是
修改新创建文件的默认副本数
,这需要在Cloudera Manager中进行配置,进入HDFS服务的“配置”页面,搜索
dfs.replication
参数,将其值修改为你期望的默认副本数(如3),然后保存配置并重启HDFS服务,此后,所有新上传到HDFS的文件都将使用这个新的副本数。














发表评论