监控OpenStack的技巧 (监控ope是什么)

教程大全 2025-07-15 23:33:55 浏览次

监控OpenStack的技巧

2017-06-01 13:21:23如果你以前曾在云平台上工作过，你一定熟悉这些系统的分布式和解耦性质。解耦的分布式系统依赖于微服务来执行特定的任务，每个微服务都会暴露自己的REST(表示状态转移)API。这些微服务通常以诸如RabbitMQ或QPID等消息中间件的形式通过轻量级消息层相互通信。

如果你以前曾在云平台上工作过，你一定熟悉这些系统的分布式和解耦性质。解耦的分布式系统依赖于微服务来执行特定的任务，每个微服务都会暴露自己的REST(表示状态转移)API。这些微服务通常以诸如RabbitMQ或QPID等消息中间件的形式通过轻量级消息层相互通信。

这正是OpenStack的工作原理。每个主要的OpenStack组件(Keystone、Glance、Cinder、Neutron、Nova等)公开REST端点，组件和子组件通过消息中间件(如RabbitMQ)进行通信。这种方法的优点首先是允许将故障分配给特定组件，其次是云基础设施运营商可以以水平方式扩展所有服务，并智能分配负载。

然而，这种分布式解耦系统虽然非常有利，但也带来了固有的挑战——如何正确监控OpenStack服务，更具体地说，如何识别可能的单点故障。

下面的内容针对OpenStack服务监控的具体情况所面临的真实挑战，以及每个难题可能的解决方案。

挑战一：系统不是一个整体

OpenStack的非整体性和解耦性通常被强调为其主要优点。这当然是一个重要的优势。然而，这显然会使任何监控整体服务状态的尝试变得复杂。在每个组件执行一个特定任务的分布式系统中，每个组件进一步分布到多个子组件中，因此，不难理解当特定一部分软件发生故障时，确定对服务的影响是多么困难。

克服这个困难的第一步是了解云。你需要确定所有主要组件之间的关系，然后确定每个独立的特定服务之间的关系，它们的故障可能影响整体服务。简单地说，你需要知道云中所有组件之间的关系。

考虑到这一点，你不仅需要监视每个单独组件的状态(正在运行或故障停止)，还要确定其他服务如何受到故障的影响。

例如，如果Keystone死机，没有人能够获取服务目录或登录任何服务，但这通常不会影响虚拟机或其他已建立的云服务(对象存储、块存储、负载均衡器等)，除非重新启动服务且Keystone仍然宕机。然而，如果Apache失效，通过Apache工作的Keystone和其他类似的API服务可能会受到影响。

因此，监控平台或解决方案不仅必须能够评估各个服务的状态，而且还要能够在服务故障之间进行关联，以便检查对整个系统的真正影响，并相应地发送警报或通知。

挑战二：OpenStack不仅仅是OpenStack

基于OpenStack的云不仅是分布式和解耦式系统，也是一种可在操作系统和其他在云基础设施中或与之相关的设备中创建资源的编排解决方案。这些资源包括虚拟机(Xen、KVM或其他管理程序软件组件)、持久卷(NFS存储服务器、Ceph群集、基于SAN的LVM卷或其他存储后端)、网络实体(端口，网桥，网络，路由器，负载平衡器，防火墙，VPN等)和临时磁盘(驻留在操作系统目录中的Qcow2文件)以及许多其他小型系统。

因此，监测解决方案必须考虑到这些基础组件。虽然这些资源可能不太复杂，并且不太容易出现故障，但是当它们停止运行时，主要OpenStack服务中的日志可能会掩盖真实的原因。它们仅在受到影响的OpenStack服务中显示结果，而不显示设备或失效的操作系统软件的实际根本原因。

例如，如果libvirt失效，组件Nova将无法部署虚拟实例。 Nova-compute作为服务将被启动并运行，但在部署阶段实例将失败(实例状态：错误)。为了检测这一点，你需要在nova-compute日志之外还监控libvirt(服务状态、指标及日志)。

因此，有必要检查底层软件和主要组件之间的关系，以及监控最终的链接，并考虑所有最终服务的一致性测试。你需要监控所有内容：存储、网络、hypervision层、每个单独的组件以及之间的关系。

挑战三：跳出固有思维模式

Cacti、Nagios和Zabbix是OpenSource监控解决方案的好例子。这些解决方案定义了一组非常具体的度量标准，用于识别操作系统上的可能问题，但是它们不提供确定更复杂的故障情况或甚至服务状态所需的专门的指标。

这是你需要有创造性的地方。你可以实施专门的指标和测试，以定义服务是否正常、降级或完全失败。

像OpenStack这样的分布式系统，其中每个核心服务都暴露了一个REST API，并且连接到基于TCP的消息服务，容易受到网络瓶颈、连接池耗尽和其他相关问题的影响。许多相关服务连接到基于SQL的数据库，这可能会耗尽其最大连接池，意味着需要在监控解决方案中实施正确的连接状态监控指标(建立、散布等待、关闭等)，以检测可能的、影响API的连接相关问题。此外，可以构建cli测试来检查端点状态并测量其响应时间，这可以被转换成实际显示服务真实状态的指标。

上述每一个监控解决方案和大多数其他商业或OpenSource解决方案可以通过自行设计专门指标来进行扩展。

命令“time OpenStack catalogue list”可以测量Keystone API响应时间，评估结果，并在结果不符合预期时产生人工故障状态。此外，你可以使用简单的操作系统工具，如“netstat”或“ss”，来监控API端点的不同连接状态，并了解服务中可能出现的问题。OpenStack云依赖关系的关键部分(例如消息代理和数据库服务)也可以这样做。请注意，消息中间件失败基本上将“杀死”OpenStack云。

关键是不要偷懒!不要只用默认的指标，而是应该用与自己服务相关的指标。

挑战四：人为因素

人为因素关乎一切。俗话说，埋怨工具的工匠不是一个好工匠。

没有经过测试的情景响应程序，单一故障不仅本身是一个问题，还将带来造更多的问题。在你的监控解决方案中，云基础设施的任何事故及其相关警报中都应该有明确的记录，以清楚的步骤来解释如何检测、遏制和解决问题。

人为因素必须考虑，即使你有一个可以关联事件和建议适当的解决方案来检测事故的、聪明的系统(一个有一定程度人工智能的系统)。请务必记住，如果系统不正确或不完整，那么输出也将不准确或不完整。

总结一下，OpenStack监控不一定很困难，最重要的是要彻底。每个单独的服务以及与其他服务的互动都需要仔细监控。特殊指标甚至可以自己实现。通过一些TLC，你可以轻松地成功监控你的OpenStack。

装在卷帘门锁上的防盗器

没有，我就是做卷帘门的！你要是想不被贼偷，我可以推荐你几个办法！ 1：装个和公安局连网的警报器，很灵的，不管是一般小偷还是大偷见了它都只有绕着走！原因很简单：怕进牢房！一般的警报不起作用的，再说就是响了，过路的人看见了，“事不关己”也懒的去管，公安就不一样了，那是他们的责任吗！不过装这个连网的要向公按局交费的！ 2：我听了你的陈述，卷帘门被盗，不外乎这几种情况！1，贼把你的锁破坏掉！解决办法：锁都有螺丝，固定锁用的，找个电焊工把上锁的螺丝焊死！2，贼把你的门给用撬杠从底下撬起来了，原因就是你的底梁用的角铁太薄！解决办法：把卷帘门最底下的一条固定锁的那片东西不是用两根角铁对焊起来的吗，“我们叫底梁”，换掉，用4X4或5X5的角铁从新做！ 3，把门的两边导轨“有的地方叫滑槽，跑道”就是门两边的那两个槽子换掉，一般的厂家装的时候都是5公分宽的，门的叶片实际进去的只有2公分，这样的话只要人站在门的中间推门的叶片的话，稍微一用力。门的片子就从槽子里面出来了，这样人就可以进去了！换成用5X5的角铁再用一个5公分的扁铁焊成个槽子，要是还不够宽，就再加宽点，反正宽了就好！ 4，把门的片子换的厚点， 5，最重要的一点：就是锁的杠子，就是锁的两头不是都有两个圆的杠子吗？那就是了，它的作用就是锁门的最关键的部分，厂家装的时候一般都是空心的！其他的你都都做好了，它要不做的话，那也不行地！解决办法，换成两个10个大的圆钢，按找原先的长短截好，用电焊直接焊死，已绝后患！做到以上几点，不用警报，也包你高枕无忧！

怎么使用strace命令跟踪某个应用程序的运行过程

1、直接strace运行命令：strace xxx2、跟踪已运行的进程：strace -p pid3、输出到文件：strace -o filename -p pid

显示器的黑屏故障有哪些解决方法？

1、检查主机电源，工作是否正常。首先，通过杳看主机机箱面板电源指示灯是否亮，及电源风扇是否转动来确定主机系统有没有得到电源供应。其次，用万用表检查外部电压是否符合要求，电压过高或过低都可能引起主机电源发生过压或欠压电路的自动停机保护。另外，重点检查电源开关及复位键的质量以及它们与主板上的连线的正确与否都有很重要，因为许多劣质机箱上的电源开关及复位键经常发生使用几次后便损坏，造成整机黑屏无任显示。若电源损坏，则更换电源便可解决。 2、检查显示器电源是否接好。显示器加电时有“嚓”的一声响，且显示器的电源指示灯亮，用户移动到显示器屏幕时有“咝咝”声，手背汗毛竖起。 3、检查显示器信号线与显示卡接触是否良好。若接口处有大量污垢，断针及其它损坏均会导致接触不良，显示器黑屏。 4、检查显示卡与主板接触是否良好。若显示器黑屏且主机内喇叭发出一长二短的蜂鸣声，则表明显示卡与主板间的连接有问题，或显示卡与显示器这间的连接有问题，可重点检查其插槽接触是否良好槽内是否有异物，将显示卡换一个主板插槽进行测试，以此判断是否插槽有问题。 5、检查显示卡是否能正常工作。查看显示卡上的芯片是否能烧焦，开裂的痕迹以及显示卡上的散热风扇是否工作，散热性能是否良好。换一块工作正常的显示卡，用以排除是否为显示卡损坏。 6、检查内存条与主板的接触是否良好，内存条的质量是否过硬。如果计算机启动时黑屏且主机发出连续的蜂鸣声，则多半表明内存条有问题，可重点检查内存和内存槽的安装接触情况，把内存条重新拔插一次，或者更换新的内存条。 7、检查机箱内风扇是否转动。若机箱内散热风扇损坏，则会造成散热不良，严重者会造成CPU及其它部件损坏或电脑自动停机保护，并发出报警声。 8、检查其他的板卡（如声卡、解压卡、视频、捕捉卡）与主板的插槽是否良好以及驱动器信号线连接是否正确。这一点许多人往往容易忽视。一般认为，计算机黑屏是显示器部分出问题，与其他设备无关。实际上，因声卡等设备的安装不正确，导致系统初始化难以完成，特别是硬盘的数据线接口，也容易造成无显示的故障。 9、检查CPU是否超频使用，CPU与主板的接触是否良好，CPU散热风扇是否完好。若超频使用导致黑屏，则把CPU跳回原频率就可以了。若接触不良，则取下CPU须重新安装，并使用质优大功率风扇给CPU散热。 10、检查参数设置。检查CMOS参数设置是否正确，若CMOS参数设置不当而引起黑屏，计算机不启动，则须打开机箱，动手恢复CMOS默认设置。 11、检查是否为病毒引发显示器黑屏。若是因病毒造成显示器黑屏，此时可用最新版杀毒软件进行处理，有时需重写BIOS程序。 12、若是显示器内部电路故障导致黑屏或显像管损坏，则应请专业人员维修。