有哪些关键步骤和常见问题需要注意-CDH-Hadoop安装配置中

教程大全 2026-03-08 23:09:38 浏览次

CDH（Cloudera Distribution Including Apache Hadoop）是由Cloudera公司推出的一个基于Apache Hadoop的商业化发行版，它包括了Hadoop的核心组件以及许多与之相关的工具和服务，CDH具有高度的稳定性和可扩展性,能够满足大规模数据处理的多种需求。

CDH Hadoop的安装配置

环境准备

在安装CDH Hadoop之前,需要准备以下环境：

（1）操作系统：Linux操作系统，推荐使用CentOS 7.x。

（2）JDK：Java开发工具包，推荐使用JDK 1.8。

（3）网络：确保所有节点之间可以正常通信。

安装步骤

以下以CentOS 7.x操作系统为例，介绍CDH Hadoop的安装配置步骤：

（1）下载CDH安装包

从Cloudera官网下载CDH安装包,选择与操作系统版本相匹配的安装包。

（2）创建安装目录

在服务器上创建一个用于存放CDH安装包的目录，

mkdir /opt/cdhcd /opt/cdh

（3）上传安装包

将下载的CDH安装包上传到服务器上。

（4）安装JDK

在服务器上安装JDK,并设置环境变量。

sudo yum install java-1.8.0-openjdk java-1.8.0-openjdk-devel

echo 'export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.292.x86_64' >> /etc/profileecho 'export PATH=$JAVA_HOME/bin:$PATH' >> /etc/profilesource /etc/profile

（5）安装CDH

执行以下命令安装CDH：

sudo yum localinstall cdh5.tar.gz

（6）配置Hadoop

编辑 /etc/hadoop/hadoop-env.sh 文件,设置JDK路径：

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.292.x86_64

编辑 /etc/hadoop/core-site.xml 文件,设置Hadoop的存储目录：

fs.defaultFShdfs://localhost:9000hadoop.tmp.dir/opt/hadoop/tmp

编辑 /etc/hadoop/hdfs-site.xml 文件,设置HDFS的存储目录：

dfs.replication1dfs.namenode.name.dir/opt/hadoop/hdfs/namenodedfs.datanode.data.dir/opt/hadoop/hdfs/datanode

编辑 /etc/hadoop/yarn-site.xml 文件,设置YARN的存储目录：

yarn.nodemanager.aux-servicesmapreduce_shuffleyarn.resourcemanager.hostnamelocalhost

（7）格式化HDFS

在Hadoop根目录下执行以下命令格式化HDFS：

sudo -u hdfs hdfs namenode -format

（8）启动Hadoop服务

启动Hadoop服务,包括HDFS和YARN：

sudo -u hdfs start-dfs.shsudo -u yarn start-yarn.sh

Q：如何查看Hadoop集群状态？

A：可以通过访问Web界面查看Hadoop集群状态，默认访问地址为（HDFS）和（YARN）。

Q：如何停止Hadoop服务？

A：可以通过执行以下命令停止Hadoop服务：

sudo -u hdfs stop-dfs.shsudo -u yarn stop-yarn.sh

大数据云计算好不好学习？

大数据云计算等专业作为当下热门的互联网行业高新领域，被各大互联网企业大量需求，都是非常不错的选择。

哪个更值得学没有明确答案，根据每个人情况不同答案是不同的。云计算的学习难度比大数据略简单，但学习最好大专以上。只要你技术到位，未来的就业前景还是非常好的！

大数据学习内容主要有：

①JavaSE核心技术；

②Hadoop平台核心技术、Hive开发、HBase开发；

③Spark相关技术、Scala基本编程；

④掌握Python基本使用、核心库的使用、Python爬虫、简单数据分析；理解Python机器学习；

⑤大数据项目开发实战，大数据系统管理优化等。

云计算学习主要内容有：

①网络基础与linux系统的管理；

②优化及高可用技能；

③虚拟化与云平台技术；

④开发运维。

如何把rdd数据写入hbase

1.在hbase中创建一个表例如：create test,info2.配置环境在hadoop的安装目录下找到配置文件，将一文件加入到此配置文件中（export HBASE_HOME=/usr/hbaseexport HADOOP_CLASSPATH=$HBASE_HOME/:$HBASE_HOME/:$HBASE_HOME/conf:${HBASE_HOME}/lib/:${HBASE_HOME}/lib/）以上的配置文件可以不用配置，一但配置在启动hive时就会出错，需要另加配置。然后拷贝jar包将hbase的拷贝到haddoop的lib下，将 copy到hadoop的lib下将hbase的配置文件文件拷贝到hadoop的conf下3.重新启动hadoop4.将所需要的文件上传到hdfs上,我用的eclipse上传的，大家也可以用hadoop fs -put /application/logAnalyse/test/5.在你安装的hbase的lib目录下执行一下的命令hbase =info:userid,HBASE_ROW_KEY,info:netid test2/application/logAnalyse/test/或是hbase - =HBASE_ROW_KEY,cf:c1,cf:c2 =, test2 /application/logAnalyse/test/这样你去hbase执行scan test2几可以看到已经有数据了

苹果电脑双系统下的windows7系统死机了，是中毒了吗？怎么办？

这是因为你装了双系统之后，会存在一个优先系统的问题。既然你的电脑一打开就显示启动win7，说明默认启动系统是win7，你可以关机后，启动时在出现苹果标志的时候长按option键，这时会出现2个硬盘的选择，一个是mac系统，另一个是win7系统，可以选择进入你要的系统。等你进入mac系统后，选择系统偏好设置，在系统那一栏里选择启动磁盘，进入后选择你要优先启动的系统就可以了。这样下次开机时如果你不按option键它就会自动进入你预先设置的系统。