近期Hadoop实施心得与总结 (近期happy对浪漫数据)

教程大全 2025-07-15 20:08:24 浏览

Hadoop实施已经有快一个月了,对Hadoop(1.0.3)的概念理解、使用,Linux 与 Shell脚本,甚至对 Mysql 都有了更多的理解。

项目背景 :用于互联网信息收集后的关键词匹配与内容提取。

主要系统架构分为互联网爬虫、分析、业务应用三块:

简单架构描述

由于我在当中的角色主要负责分析架构的搭建,所以其他两块都画得简单,下面也不会过多的描述。

Hadoop理解 :提到Hadoop都想到的是云、分布式计算,在一段时间的实施之后有了一些具体的理解。

Hadoop的优势:

针对 性能指标 ,当业务数据量总量或增速上升到一定级别,依靠关系型数据库一定无法支持。对于非关系型数据库,包括和Solr一类存储方式,稍显复杂,对于机器集群性能要求偏高(相对于文件系统)。从 近期Hadoop实施心得与总结 数据使用模式 上来讲,目前海量数据的常常是不包含复杂逻辑的简单统计整理(比如上述系统中的关键词匹配)。这时候文件系统的优势反而比较明显(结构简单,逻辑简单)。

如上述系统的 应用场景 是怎么样的呢,在一个强大的爬虫系统之下,每个小时的数据增量在G到10G的级别,需要搜索所有的文件,获取关键字的匹配,并且对匹配内容进行摘要。很类似我们windows里面的搜索功能,需要解决的就是如何在这样增幅的文件系统之下,如何满足业务系统的需求。

分析系统有什么要求 呢?

○能够建立集群,分布式的保存数据文件内容(统一控制,可配置)。

可能主要是这些了。若自己实现,确实是个复杂而庞大的工程,现在我们有了Hadoop。

系统物理架构

我们使用了一台 服务器 ,利用虚拟化,安装了7套64x位的CentOS。一个Namenode,6个Datanode,复制数设置为3。每个系统分配到一个cpu,2G内存,Datanode挂载了500G的存储空间。

理想的Hadoop的搭建环境,参照《BestPracticesforSelectingApacheHadoopHardware》一文,以及一些其他的文章。

CPU:最好是双CPU,8核左右。不用太高了。

内存:推荐48G,但是4G应该就可以运行Hadoop了。

硬盘:7200转的SATA硬盘即可,Hadoop很占空间,所以尽量加。

网络:内部的数据交换要求非常高,内网最好是千兆网卡,带宽为1GB。

理想与现实,有钱与没钱,呵呵。

系统软件架构

Hadoop:版本使用的是1.0.3,再下来就是2了,为了尽量简化应用,所以不考虑2的新特性。对Hadoop没有做太多的设置,基本基于默认。70为Namenode,71-76为Datanode。

JDK:1.6.0_33(64x)

系统实施过程

HDFS部分:

爬虫抓取数据,整理后存放在50文件服务器,70以外部挂载的形式读取。网页文件比较小,假如直接写入Hadoop对Namenode负载过大,所以入库前合并,将每小时网页整合成为一个文件写入HDFS,由于区分类别,所以每小时基本写入10个文件左右,总量在5-8G,耗时在40-50分钟。(这个过程中,由于爬虫的IO过于频繁,导致文件读取困难,所以做了定时任务,每小时启动一次,将需要处理的文件先拷贝到临时区域,合并入库之后再删除。此处应该是受到单核cpu的限制,所有操作均是串行,包括拷贝(cp)和合并入库(java),所以Namenode严重建议配置稍高。)

此处没有太多问题。

MapReduce部分:

写入完成后,进行分析工作,MapReduce。此处的工作过程为:数据库定时生成关键词列表文件。Job执行时会读取列表文件,匹配指定范围内的 HDFS文件(过去一小时),匹配出对应的表达式与HTML,Map过程结束。在Reduce阶段,会将Map的所有数据入数据库(Mysql)。

此处出现过一些问题,记录下来。

1.Reduce阶段需要加载Mysql的第三方驱动包。我在三个环境测试过(公司、家里、发布环境),使用-libjars一定可以,有的地方不需要也可以。不明确,怀疑与HADOOP_HOME环境变量有关。

2.MR过程中使用log4j打印日志,在Hadoop临时目录(如果你没有配置 dfs.name.dir,dfs.data.dir,mapred.local.dir.mapred.system.dir等目录,这些都会在 hadoop.tmp.dir当中,我就偷懒都没配置)mapred文件夹中查看一下。

整个过程实际上还是比较简单的,基本编码量就在Job的部分,但是一个Java文件就够了。在目前初级阶段应该还是比较好用的。现在还没有测试Job的执行效率。完成后会继续记录下来。有什么问题可以尽量提出。我会继续关注。

原文链接:


急用!主题班会设计方案

玉:青春悄无声息地来了,她是带着女孩飘逸的秀发、苗条的身影而来的; 杜:青春迈着轻盈的脚步来了,她是伴者男孩粗粗的嗓音、蓬勃的朝气而来的; 玉:我们爱春天,我们更爱像春天一样美好的青春! 杜:今天我们要召开的主题班会是: 合:我们的青春,我们的梦 玉:青春是一条奔腾的河,是一条充满惊涛骇浪的河。 每个少男少女都独自驾着小舟,从这条河上驶过。 然而,并非每一位水手都能乘风破浪平安地驶到彼岸。 世界上哪一条江河没有吞没过船只?况且是这样一条吉凶难卜的河,这样一群热情大于理智的水手! 杜:青春是一座高耸的山,是一座看不见路径的山。 既然是高山难免坎坷,难免有毒蛇猛兽出没,也难免野花的诱惑和迷路的时候。 山林之神只留下一句秘诀--唯有大智大勇者脚下才有路! 玉:青春是一片浩瀚的海,是一片不见天际的海。 每个少男少女都是一道小溪,别无选择汇向大海。 溪水是甜的,海水是咸的,由甜变咸根本不管你情愿还是不情愿。 道理很简单:一个人光吃甜的,并不能强身健体,只有足够地吸收盐分,骨头才会一天天结实起来。 因此,拥抱大海就是拥抱希望。 杜:青春是一片蔚蓝的天,是一片辽阔无垠的天。 每个少男少女都是一只羽翼未丰的雏燕,渴望自由翱翔。 然而,如果经不起暴风雨的考验,在天空中挥动翅膀就意味着灾难;如果没有天空一样博大的胸怀,纵然远行万里也会郁郁寡欢。 合:让我们注视着河流,让我们仰望着高山,让我们拥抱大海,让我们奔向蓝天。 那是一个竞技场,那是一个个快乐园,那也是一部青春大辞典! 玉:三年来,我们结伴而行,校园里到处充斥着我们的欢声笑语 杜:三年来,我们携手共进,过去的点点滴滴仍在我们脑海中盘桓不去 玉:今天让我们回首过去,品味以往的甜蜜 杜:今天让我们展望未来,编织着属于我们的梦 梦想篇 杜:17岁的人儿,总喜欢去猜想未来会怎样,喜欢做梦; 玉:17岁的人儿,总喜欢去看看周围的世界,喜欢探索; 杜:相信对于这些同学一定有不同的看法和见解,那么下面就请同学们来谈谈自已的感想吧。 谈梦想 玉:听了这么多同学的感想,相信大家也一定感触颇深,是啊,我们现在正处在朝气蓬勃的黄金时期,更应该秉承梦想,珍惜青春。 下面请欣赏小品《梦想成真》。 《小品》 杜:小品看完了 玉:可不是,大家也乐玩了。 但是小品可不能白看,也不能哈哈一笑就过去了 杜:那就让同学们都谈谈自己的目标和经验吧 谈经验 杜:王安石曾经将成功的因素总结为三条,可谓是缺一不可。 他们分别是“力”“志“和”物“ 而但对于高三的我们来说同样是如此,要想考出理想成绩,我们就要有健壮的体魄,傲人的毅力和外界的帮助 玉:没错,而外界的帮助又分很多种,比如说老师的帮助,补习班的辅导等等。 但是我们常常忽略了父母对我们的关怀和帮助,因为他们的爱来的直接和永恒 杜:父母是真的是为我们付出最多的人,他们总是为我们的着想,来自于他们的温暖我们焉能计数。 然而,我们乘载更多的是他们对我们的期望,下面让我们来倾听父母的心声。 家长录音 玉:当你学累了、烦了,想一想母亲慈爱的眼神,想一想父亲辛苦的汗水,你便有了重新拼搏的动机。 杜:家长对我们的期许,不应是压力,而是助跑的推进器。 希望每一位同许都能够不懈地努力下去,为自己能步入自己的理想殿堂而奋斗。 玉:在我们的身边,有这样一类人。 他们日夜操劳,他们无私奉献,他们是最可爱的人。 杜:老师!你一直陪伴着我们,帮助着我们,对于我们的理想之路,您一定想对我们说些什么。 让我们倾听他们的寄语。 (录象) 老师寄语 杜:了解完家长和老师对我们的殷切的期望,与教诲,让我们更加懂得了在困难重重的求学之路上我们首先要坚定信念,相信自己,当面对难题与挫折时,要学会自信满满的说出我能行! 杜:在我们的学习生活中,家长和老师无不给予我们物质和精神上的双重支持。 鲜花感恩雨露,因为雨露让它滋润;苍鹰感恩长空,因为长空让它飞翔;高山感恩大地,因为大地让他高耸。 玉:而老师和家长多我们来说就像滋润鲜花的雨露,就像给予苍鹰翱翔的天空,就像帮助高三高耸的大地,就像我们生活中的妈妈… 就像…就像…千百个比喻难以诉说我们的感激 在此请允许我代表所有的同学真诚地向老师们说一声谢谢。 在这个激动人心的场合中,在众多老师面前,让我们大声地说出我们的梦想,让全世界一同见证 全体起立 杜:在高三这个充满辉煌而又有几分伤感的一年里,我们即将迎来人生的转折点-高考,也即将离开与我们朝夕相处了三年的学校,所以我们要用自己的实际行动和优异的成绩来回报母校的栽培之情。 玉:菁菁校园,莘莘学子绚丽的梦; 杜:唰唰的粉笔声,挥洒着老师辛勤的汗水; 玉:这里一步一个脚印; 杜:和着时代的进行曲; 合:共同谱写着青春的交响乐。 玉:最后,让我们的班会结束在这段熟悉的旋律中,就让我们唱吧,跳吧,因为未来的担子还是很重 杜:让我们唱吧,跳吧,因为未来的路真的很难走。 不要拘束,请展现出青春的自己

VS2005中的生成解决方案, 清理解决方案是什么意思?

选择“生成”或“生成解决方案”,将只编译自上次生成以来更改过的那些项目文件和组件。 注意如果解决方案中包括多个项目,则“生成”命令将变成“生成解决方案”。 选择“重新生成解决方案”,将首先“清理”解决方案,然后生成所有项目文件和组件。 选择“清理解决方案”将删除所有中间文件和输出文件,只留下项目文件和组件文件,以后可以从这些文件生成中间文件和输出文件的新实例。 =======================================================请打开VS2005启动帮助, 选择索引, 在“查找”框中输入“清理解决方案”,有详细而准确的说明

大话2回灵600的家具一套最低价方案

回灵450要三千多万,回灵600要四千七百万左右。

本文版权声明本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请联系本站客服,一经查实,本站将立刻删除。

发表评论

热门推荐