如何一步步完成CDH5的安装与配置全流程

教程大全 2026-02-22 00:12:11 浏览

Cloudera Distribution Including Apache Hadoop 5 (CDH5) 作为曾经业界广泛使用的企业级Hadoop发行版,提供了稳定、可靠且易于管理的大数据平台,其核心在于通过Cloudera Manager这一强大的管理工具,极大地简化了Hadoop生态组件的安装、配置、监控和运维过程,本文将系统性地介绍CDH5的安装与配置流程,旨在为读者提供一份清晰、详尽的实践指南。

环境准备与系统配置

在开始安装之前,充分的前期准备是确保集群稳定运行的关键,此阶段的工作主要涉及硬件、操作系统、网络和基础软件的配置。

系统与硬件要求 CDH5对操作系统有明确要求,通常推荐使用CentOS 6.x或7.x的稳定版本,所有集群节点(包括主节点和从节点)的硬件配置应根据业务负载进行规划,但最低建议如下:

网络与主机名配置 集群内所有节点必须能够通过主机名互相通信,并且主机名解析稳定,修改每台服务器的 /etc/hosts 文件,添加所有集群节点的IP地址和主机名映射,示例如下:

168.1.10 cdh-master192.168.1.11 cdh-worker1192.168.1.12 cdh-worker2

确保使用命令设置的主机名与 /etc/hosts 中的配置一致,为了简化安装,建议在安装期间关闭防火墙和SELinux,但在生产环境中应配置相应的防火墙规则。

SSH免密登录 Cloudera Manager Server需要通过SSH协议连接到所有Agent节点进行部署和管理,需要配置从Manager节点到所有其他节点的SSH免密登录,在Manager节点上执行:

# 生成密钥对ssh-keygen -t rsa# 将公钥分发到所有节点(包括自身)ssh-copy-id cloudera-scm@cdh-masterssh-copy-id cloudera-scm@cdh-worker1ssh-copy-id cloudera-scm@cdh-worker2

这里建议创建一个统一的用户(如 cloudera-scm )用于集群管理。

5安装指南article/20260222001212_33277.jpg" loading="lazy"> 时钟同步与Java环境 Hadoop集群对时间同步极其敏感,节点间时钟偏差过大会导致集群工作异常,必须确保所有节点都安装并启动了NTP服务。

yum install -y ntpservice ntpd startchkconfig ntpd on

CDH5需要Java环境,通常推荐使用Oracle JDK 1.7或1.8,下载JDK安装包并配置好环境变量,确保所有节点版本一致。

Cloudera Manager与CDH5的安装

环境准备就绪后,可以开始核心的安装工作,整个流程以Cloudera Manager为中心展开。

安装Cloudera Manager Server 选择一台性能较好的服务器作为Manager节点,配置Cloudera的YUM仓库源。

wget-O /etc/yum.repos.d/cloudera-manager.repo

使用YUM命令安装Server软件包。

yum install -y cloudera-manager-server-dbyum install -y cloudera-manager-server

安装完成后,需要初始化Server的数据库,如果使用内嵌的PostgreSQL数据库,可直接运行初始化脚本:

/usr/share/cmf/schema/scm_prepare_database.sh postgresql scm scm scm_password

启动Cloudera Manager Server服务:

service cloudera-scm-server start

启动过程需要几分钟,可以通过查看日志 /var/log/cloudera-scm-server/cloudera-scm-server.log 来跟踪进度。

安装Cloudera Manager Agent 所有 节点(包括Manager节点)上执行Agent的安装,同样,先确保YUM仓库源已配置。

yum install -y cloudera-manager-agent

安装后,需要修改Agent的配置文件 /etc/cloudera-scm-agent/config.ini ,将其中的 server_host 指向Manager节点的主机名。

server_host=cdh-master

保存后,启动Agent服务:

service cloudera-scm-agent start

通过WEB UI进行集群安装 当Server和所有Agent都启动成功后,便可以通过浏览器访问Cloudera Manager的Web界面: ,默认管理员用户名和密码均为。登录后,系统会引导你完成一个安装向导:

服务配置与优化

安装完成后,Cloudera Manager提供了强大的配置管理界面,你可以根据集群的硬件资源和业务需求,对各项服务进行精细化调优,以下是一些关键服务的核心配置参数示例:

服务 关键参数 建议配置/说明
dfs.Replication 数据块副本数,生产环境通常设为3,测试环境可设为2。
NameNode Heap Size NameNode的堆内存大小,根据元数据量设置,通常建议8GB以上。
NodeManager Memory NodeManager可用的物理内存总量,通常设为服务器物理内存的70%-80%。
yarn.scheduler.minimum-allocation-mb YARN容器可申请的最小内存。
maxClientCnxns 单个客户端IP地址的最大连接数,默认为60,可根据需要调整。

在Cloudera Manager界面中,进入对应服务的“配置”页面,搜索上述参数即可进行修改,修改后需保存配置并重启相关服务才能生效。

小编总结与注意事项

CDH5的安装配置是一个系统性工程,从前期的环境规划到后期的服务调优,每一步都至关重要,Cloudera Manager极大地降低了部署的复杂性,但深入理解Hadoop各组件的原理和配置项,仍然是运维好一个大数据集群的基础。

特别提醒 :CDH5版本已停止官方支持(End of Life, EOL),不再接收安全更新和功能补丁,对于新项目,强烈建议使用Cloudera的最新平台CDP(Cloudera>相关问答FAQs

Q1: 在Cloudera Manager中,为什么我的Agent节点健康状态显示为“不良”或“时钟偏差”? 这是最常见的两个问题。“不良”状态通常由多种原因引起,但最常见的是 时钟同步问题 网络/防火墙问题 ,请务必在所有节点上检查并启动NTP服务,使用命令确认同步状态,确保Manager节点的7180端口和Agent节点的端口(默认9000左右)在防火墙中是开放的,对于“时钟偏差”的明确告警,其根本原因就是节点间系统时间不一致,解决方案就是严格配置NTP服务,保证所有节点时间同步。

Q2: 安装完成后,如何修改HDFS的默认副本数? 修改HDFS副本数分为两种情况,第一种是 修改已存在文件的副本数 ,可以使用HDFS Shell命令递归地修改某个目录下所有文件的副本数,将 /user/hive/warehouse 目录下所有文件的副本数改为2:

hdfs dfs -setrep -R 2 /user/hive/warehouse

第二种是 修改新创建文件的默认副本数 ,这需要在Cloudera Manager中进行配置,进入HDFS服务的“配置”页面,搜索 dfs.replication 参数,将其值修改为你期望的默认副本数(如3),然后保存配置并重启HDFS服务,此后,所有新上传到HDFS的文件都将使用这个新的副本数。

本文版权声明本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请联系本站客服,一经查实,本站将立刻删除。

发表评论

热门推荐