看云计算如何解决高性能计算资源调度问题

2010-04-02 09:57:34高性能计算可能会采取一种不同的、使用密集多核 服务器 的方式进入云计算。用户可以在桌面上就将作业加到SGE中去。这种资源调度方式会接触可以运行虚拟机的本地资源或者云中资源。
资源调度从来就不是个诱人的话题。它们是必须要做的事情,但是通常很复杂而且常常令用户沮丧、让系统管理员忙碌。最常见的抱怨是:“为什么我的作业没有运行?”问题的答案通常依赖于对一些调度规则的解释,或者干脆说已经满负载,或者在极罕见的情况下称一个用户的程序导致了该问题。
如果你不知道什么是资源的时刻表,那么接下来的这几段必须要看了。这个名词是说,您有很多个资源、很多个作业在排队,需要列出这些资源以最佳的状态工作。一些常见的资源调度比如SunGird、Engine, Torque/Maui、Moab、PBS、Platform以及Platform Lava。集群是体现资源调度最好的例子。在一个128节点的集群里,每个计算节点有八个核。大部分的用户的程序需要1—16个核来工作,但是有一些需要256个核。问题就是,给出一个工作的清单,什么才是这个集群被充分利用的最佳工作方式?
用户在提交“作业”的时候经常通过一个脚本(类似于qsub,queue summit)使得作业插入到队列调度中去,如果被允许,用户可以使用类似qstat(queue status,队列状态)的脚本来控制自己的程序,同时打印出一些让人困扰的信息,没有一个信息可以回答你“为什么我的作业没有运行”(当然,这里也提供了这条消息,但是看起来最简单的方式还是给系统管理员发个邮件)。
为了使调度问题更棘手一点,在某些情况下,我们不知道这些应用程序将会运行多长时间,而且也许有一些其它所需的资源(比如内存容量、存储、处理器类型等)。因此,资源调度这个工作并不简单,但是对于集群利用率来说非常重要。实际上,多核的出现使得内核级调度工作比以前更加重要(当然也更加困难)。在内核级,内核必须被安排,而且将任务在核心之间互相转移必须基于缓存。有趣的是,高层次的资源调度能力已经延伸到CPU,控制核心的位置对获得最好性能是非常必要的。
为什么资源调度将会成为高性能计算以后新的、很酷的工具?并不是因为一种新的额GUI或者一些其它的神秘的功能。真正的原因是云计算。但是这并不意味着云将会很快到处都是,实际上,资源调度将会把云放在合适的地方。
最近,听到一个新泽西技术研究所的David Perel使用Sun Grid Engine(SGE)所做的Apache Hadoop动态资源分配实验。随后有一个深入的研究,有关Sun Grid Engine更新的文章。在新的版本里有两个诱人的更新,第一个是云计算,第二个则是Hadoop,类似于一种大众云计算的东西。
最特别的是,SGE新的版本允许云中的互换,就好像亚马逊的EC2。作业被允许,SGE可以控制之间的联系。使用EC2的话,用户需要为应用程序构建AMI图像。除此之外,他们还需要提供EC2上的账户信息。一旦做到这一点,用户可以讲作业插入队列,对于EC2来说,则有了一个“云爆发”。
另外一个新功能是与Hadoop的整合。如果你不知道什么是Hadoop的话,那就Google一下。只是架设好一个Hadopp集群并非易事。这是一种不依赖一个数据库的强大的搜索模式。通常,地图搜索减少启动服务器的数量,给每个本地硬盘驱动器设置不同的数据。SGE已经得到增强,现在Hadoop作业可以直接提交。
在这一点上行,云中的高性能计算是一件喜忧参半的事情。除非你使用一个特别设计的HPC云计算,就好像Penguin的POD服务,对HPC性能至关重要的I/O资源可以多样化。这可能会改变。作为单独服务器包含更多内核。HPC应用调查显示,57%的HPC用户使用32处理器或者更少的核心。这些人证实了ClusterMoney.net有关此调查55%的数字。当云计算开始使用48个内核的服务器时,可能会消除一些服务器到服务器通信问题的形成。
高性能计算可能会采取一种不同的、使用密集多核服务器的方式进入云计算。用户可以在桌面上就将作业加到SGE中去。这种资源调度方式会接触可以运行虚拟机的本地资源或者云中资源。这种资源调度方式可能会让HPC实现宝贵的桌面化。听起来像网格计算,但是更简单。
【编辑推荐】
虚拟化有哪些应用?
降低总体拥有成本(TCO)、提高投资回报率(ROI)通过服务器整合,控制和减少物理服务器的数量,明显提高每个物理服务器及其CPU的资源利用率,从而降低硬件成本。 降低运营和维护成本,包括数据中心空间、机柜、网线,耗电量,冷气空调和人力成本等。 2、提高运营效率加快新服务器和应用的部署,大大降低服务器重建和应用加载时间。 主动地提前规划资源增长,这样对客户和应用的需求响应快速,不需要象以前那样,需要长时间的采购流程,然后进行尝试。 不需要象以前那样,硬件维护需要数天/周的变更管理准备和1 - 3小时维护窗口,现在可以进行快速的硬件维护和升级。 3、系统安全性由于采用了虚拟化技术的高级功能,使业务系统脱离了单台物理硬件的束缚,可以实现更高级别的业务连续性要求,提升了系统安全性、可靠性。 通过虚拟化技术,降低了物理硬件的故障影响力,减少了硬件的安全隐患。 通过虚拟化整合,减少了设备的接入数量,安全防范的范围能够得到更有效地控制。 4、提高服务水平帮助您建立业务和IT资源之间的关系,使IT和业务优先级对应。 将所有服务器作为统一资源池进行管理,并按需进行资源调配,快速响应业务部门提出的系统资源需求。 5、陈旧硬件和操作系统的投资保护虚拟化平台具有更广泛的操作系统(OS)兼容性,不再担心旧系统的无法使用,并且通过自动更新功能实现维护和升级等一系列问题。 6、云计算基础环境准备
背板带宽是什么?
1、背板带宽和交换架构有什么区别?交换架构是指数据穿越设备的方式。 主要有:总线型:数据包通过总线达到所有端口,然后由中央处理器告诉每个端口是继续转发还是丢弃该数据包。 共享内存型:数据包被放到共享内存中,然后中央处理器告诉应该转发数据的端口/模块到指定位置读取数据。 交叉矩阵型:数据通过交叉矩阵开关直接送往该去的模块/端口。 可以由中央处理器决定送往方向,也可以由输入模块自己决定。 后者也就是分布式处理。 一般只有交叉矩阵型可以做到完全的分布式处理。 背板带宽是指数据包穿越设备时可以用到的带宽总和。 总线型就是总线的宽度,共享型是每个模块到达中央处理器的总线宽带的总和,交叉矩阵型是每个模块连接到矩阵的总线带宽的总和。
什么是网管,网管主要是做什么工作的?
网管人员的工作主要包含三个方面:网络建设、网络维护和网络服务。 1、网络设备的管理网络设备的管理是网管工作中重点中的重点。 要管理网络设备,就必须知道网络在物理上是如何连接起来的,网络中的终端如何与另一终端实现互访与通信,如何处理速率与带宽的差别;同的网络是如何对联及如何通信的。 要解决这些问题,就要首先了解路由器、交换机、网关等设备。 网络系统由特定类型的传输介质(如电费、光缆和无线媒体)和网络适配器(亦称网卡)互连在一起,并由网络操作系统监控和管理。 网络管理员对网络设备的管理主要是对路由器、交换机及线路的管理。 2、服务器的管理服务器是一种特殊的计算机,它是网络中为端计算机提供各种服务的高性能的计算机,它在网络操作系统的控制下,将与其相连的硬盘、磁带、打印机、MODEM及的专用通讯设备提供给网络上的客户站点共享,也能为网络用户提供集中计算、信息发表及数据管理等服务。 一般来说在一个网络中需要建立多个服务器方能提供不同的服务需求,一般网络需要的服务器主要有下面几种:WEB服务器、E-MAIL服务器、ftp服务器、DNS服务器、PROXY(代理服务)器、数据库服务器等。 3、资源的管理网络中的资源很多,如IP地址资源域名资源、磁盘资源等,只有管理好这些资源才能够让网络为用户提供更好的服务。 4、用户的管理管理用户就是添加或删除用户,授予用户一定的访问权限、分配不现级别的资源给不同的用户,并保证网络的安全。
发表评论