大家好,我是君哥。
前段时间滴滴的故障相信大家都知道了。中断业务 12 小时定级为 P0 级故障一点都不冤。
网上有传言是运维人员升级 k8s 时,本来计划是从 1.12 版本升级到 1.20,但是操作失误选错了版本,操作了集群降级到低版本。
从下面 滴滴技术 的博客中也可以看到滴滴的升级方案:
滴滴为了降低升级成本,选择了原地升级的方式。首先升级 master,然后升级 node。我们一起看一下 k8s 官方架构:
master(官网图中叫 CONTROL PLANE) 节点由3 个重要的组件组成:
Node 节点向 kube-api-server 注册成功后,才可以运行 Pod。从滴滴的博客中可以看到,采用原地升级的方式,升级了 master 之后,逐步升级 Node,Node 会有一个重新注册的过程,不过既然选择这个方案,运维人员应该反复演练过,重新注册耗时应该非常短,用户无感知。
但是 master 选错版本发生降级时,会把 kube-api-server 污染,Node 节点注册失败,又不能快速回滚,这样 Node 节点被集群认为是非健康节点,上面的 pod 被 kill 掉,服务停止。
这次故障大家讨论的话题还有一个比较热门的就是 k8s 集群隔离,因为多个业务比如打车业务、单车业务同时挂,说明都在一个集群上,没有单独建集群来做隔离,这可能也是博客中说的“最大集群规模已经远远超出了社区推荐的5千个 node 上限”的原因。
当然也有可能当时野蛮生长的时候,为了快速上线开展业务,就多个业务建在了一个集群上,后来可能也有过拆分的想法,但发现业务上升空间已经很小,现有集群可以维持,所以就搁置了。
拆分成多个集群好处很明显,业务隔离,故障隔离,可靠性增加,就拿这次升级来说,先升级一个不太关键、业务量也比较小的集群做试点,升级成功了再逐个升级其他集群。
但缺点也很明显,运维复杂度增加,成本增加。
工作这些年,也参与过一些大规模的平台重构,但原地升级真的是没有接触过,主要原因就是架构师们不太愿意选择原地升级的方案。而他们主要出于下面考虑:
对于滴滴这样的大公司,相信运维团队大咖如云,无论采用哪种方案,肯定都是经过反复验证的,或许不要选错版本,原地升级也没有问题。
看了微博上滴滴道歉的留言区,好多人猜测这次事故的原因是降本增效,裁掉了一线高成本的运维,保留了成本低的新人。
从数据上来看,出于降本增效的目的,滴滴这两年确实少了很多人,但我不相信这是造成事故的直接原因。
在快速增长的阶段,确实需要投入大量的技术人员来建设系统。但国内互联网规模也基本见顶了,一个业务经营这么多年,不会再有爆发式地增长,系统也已经非常稳定。这样的背景下,公司确实用不了这么多技术人员了,留下部分人员来维护就够了。
所以,无论哪家公司,降本增效是业务稳定后必定会经历的阶段。想想滴滴这次 12 小时故障的损失,能比养 1000 个技术人员的成本高吗?
对于我们研发人员,如果有机会进入快速增长的公司,那就抓住机会多挣钱,被裁员的时候平常心看待就可以了,想在一家公司干到退休太难了。同时也要看到自己给公司带来的价值,千万不要认为我们技术厉害就比那个 PPT 工程师更有价值。
本文根据网上流传的滴滴故障的原因,分析了升级方案和降本增效。最后,又快年末了,希望大家都能维护好自己的系统,不要发生严重故障影响自己的年底考核。
采集几则农谚,说说他们包含的物候知识
雨中闻蝉叫,预告晴天到 十成熟七成收,七成熟十成收 蚱蜢扑脸,大雨不远。 泥鳅疯癫,大风暴雨在眼前。 蜘蛛添丝天放晴,蜘蛛结网大风起。 久雨鸟鸣,天空会转晴。 腊梅花向下开,大农谚 风卷雪登门来。 燕低飞,披蓑衣。 蚂蚁搬家,蛇过道,不久雨就到。 蜻蜓高,晒得焦,晴蜓低,带蓑衣。 蚂蝗不安,预兆有雨,泥鳅暴跳,雷雨快到。 水缸穿裙,大雨将临。 盐缸还潮,大雨将到。 蚊子成群嗡嗡叫,大雨就要到。 烟不出屋,滴滴笃笃 东南风燥松松,东北风雨太公。 春发东风连夜雨。 春东风雨祖宗,夏东风热烘烘,秋东风晒死老虾公,冬东风雪花白蓬蓬。 一日赤膊,三日头缩。 未到惊蛰打天雷,四十二天雨门开。 东闪西闪,晒死泥鳅、黄鳝。 清明断雪、谷雨断霜。 春霜不露白,霜白要赤脚;春霜三天白,晴到割大麦。 春雾雨水夏雾热,秋雾凉风冬雾雪。 立春晴一日,耕田不用力。 早西晚东风,晒死塘底老虾公。 五月南风满大水,六月南风海也枯。 六、七月里吹北风,一、二日内刮龙风(台风)。 夏东风、燥松松 。 小暑南风十八朝,晒得南山草也焦。 雨打早五更,雨伞不用撑。 雨打鸡啼丑,雨伞不离手。 伏天难求夜来雨,落来就要涨大水。 开门见雨饭前雨,关门见雨一夜雨。 立夏落,蓑衣笠帽挂屋下;立夏晴,蓑衣笠帽站田塍。 日暖夜寒,东海晒干。 六月盖被,有谷无米。 食过端午粽,还要冻三冻。 二更上云三更开,三更上云雨便来。 南云过北,无水磨墨,北云过南,大路成潭。 云向东,一场空;云向西,披蓑衣。 五更乌洞洞,下午晒死侬。 早霞不出门,晚霞行千里。 早晨起霞,等水烧茶,晚上起霞,晒死青蛙。 日落红霞照满天,风暴在眼前。 虹高日头低,大路冲成溪,虹低日头高,明朝晒断腰。 东虹日头、西虹雨,早虹晴,夜虹雨。 五月雾露,雨到半路。 小满山头雾,小麦变成糊。 雾里日头,晒破石头。 日晕三更雨,夜晕午时风。 日出日落胭脂红,不是雨来就是风。 夏至有云三伏热,重阳无雨一冬晴。 六月急雨隔田塍。 西甑山戴帽大雨就要到。 “夏九九”歌(夏至后81天): 一九二九,扇子不离手; 三九二十七,出门汗欲滴; 四九三十六,夜眠露天宿; 五九四十五,日中秋老虎; 六九五十四,乘凉勿入寺; 七九六十三,夜眠盖被单; 八九七十二,想着盖夹被; 九九八十一,开柜寻棉衣; 秋前北风秋后雨,秋后北风燥到底, 当日南风当日消,三日南风大雨浇。 秋前西风大水淹,秋后西风断雨点。 立秋下雨廿日旱,旱过廿日烂稻秆。 夏雨隔牛背,秋雨隔灰堆。 霜打秋头,没草饲牛。 八月雾露,雨到半路。 霜降见霜,五谷满仓。 霜降到来天转凉,边收边种莫迟缓。 北风连夜起,雪花满天飞。 四季北风四季雨,四季西风四季晴。 冬水不留塘,五谷难上仓。 大旱不连年,连着就三年。 全年雨水看冬至,冬至霜多雨则少。 冬至落雨星不明,立春下雪步难行。 先下雪后下霜,一个麦头二人扛。 雪等雪,落起勿肯歇。 雪下高山顶,天气要转晴。 雨夹雪落勿歇。 雪不烊(融化),等雪娘。 冬雪是被,春雪是刀。 冬雪勿烊是饭,春雪不烊是难。 年前下雪旱,明年收成早。 泥鳅静,天气晴。 猪衔草,寒潮到
Windows10的电脑开机时一按开机键就滴滴滴滴滴的响

开不了机还响是与您关机前的不当操作有关系吧?比如:玩游戏、看视频、操作大的东西、使用电脑时间长造成的卡引起的吧?或下载了不合适的东西、或删除了系统文件、或断电关机等,故障不会无缘无故的发生吧?确实不可以就重装系统吧,如果自己重装不了,到维修那里找维修的人帮助您。 一个是放半天或一天有时会自己恢复,另一个就是重装系统了。 只要注意自己的电脑不卡机、蓝屏、突然关机,开机就不会这样了。 有问题请您追问我。
电脑一开机就一直滴滴响是怎么回事呀
那是BIOS自检时查出故障所发出的声音提示。 BIOS自检响铃含义 一、Award BIOS自检响铃含义: 1短:系统正常启动。 恭喜,你的机器没有任何问题。 2短:常规错误,请进入CMOS Setup,重新设置不正确的选项。 1长1短:RAM或主板出错。 换一条内存试试,若还是不行,只好更换主板。 1长2短:显示器或显示卡错误。 1长3短:键盘控制器错误。 检查主板。 1长9短:主板Flash RAM或EPROM错误,BIOS损坏。 换块Flash RAM试试。 不断地响(长声):内存条未插紧或损坏。 重插内存条,若还是不行,只有更换一条内存。 不停地响:电源、显示器未和显示卡连接好。 检查一下所有的插头。 重复短响:电源有问题。 无声音无显示:电源有问题。 二、AMI BIOS自检响铃含义: 1短:内存刷新失败。 更换内存条。 2短:内存ECC较验错误。 在CMOS Setup中将内存关于ECC校验的选项设为Disabled就可以解决,不过最根本的解决办法还是更换一条内存。 3短:系统基本内存(第1个64kB)检查失败。 换内存。 4短:系统时钟出错。 5短:中央处理器(CPU)错误。 6短:键盘控制器错误。 7短:系统实模式错误,不能切换到保护模式。 8短:显示内存错误。 显示内存有问题,更换显卡试试。 9短:ROM BIOS检验和错误。 1长3短:内存错误。 内存损坏,更换即可。 1长8短:显示测试错误。 显示器数据线没插好或显示卡没插牢。 三、Phoenix BIOS自检响铃含义: 自检响铃 自检响铃含义 1短 系统启动正常 1短1短2短 主板错误 1短1短4短 ROM BIOS校验错误 1短2短2短 DMA初始化失败 1短3短1短 RAM刷新错误 1短3短3短 基本内存错误 1短4短2短 基本内存校验错误 1短4短4短 EISA NMI口错误 3短1短1短 从DMA寄存器错误 3短1短3短 主中断处理寄存器错误 3短2短4短 键盘控制器错误 3短4短2短 显示错误 4短2短2短 关机错误 4短2短4短 保护模式中断错误 4短3短3短 时钟2错误 4短4短1短 串行口错误 4短4短3短 数字协处理器错误 1短1短1短 系统加电初始化失败 1短1短3短 CMOS或电池失效 1短2短1短 系统时钟错误 1短2短3短 DMA页寄存器错误 1短3短2短 基本内存错误 1短4短1短 基本内存地址线错误 1短4短3短 EISA时序器错误 2短1短1短 前64K基本内存错误 3短1短2短 主DMA寄存器错误 3短1短4短 从中断处理寄存器错误 3短3短4短 屏幕存储器测试失败 3短4短3短 时钟错误 4短2短3短 A20门错误 4短3短1短 内存错误 4短3短4短 时钟错误 4短4短2短 并行口错误
发表评论