大规模集群故障处理
|
期大规模集群治理实践过程中,也针对各个集群的各种疑难杂症形成了自己的西药(trouble shooting)丶中药(Returning for analysis)丶健身预防(On a regular basis to optimize)的手段及产品。 下面通过自我的三个灵魂拷问来分享一下自己对于大规模集群治理的经验及总结。 灵魂拷问1 集群量大,到底有啥特点? 集群数量多,规模大:管理着大小将近20个集群,最大的xxx集群和xx集群达到1000+节点的规模。 灵魂拷问2 平时集群容易生什么病,都有哪些隐患呢? 集群在整体功能性,稳定性,资源的使用等大的方面都会有一些痛点问题。 常见的文件数过多丶小文件过多丶RPC队列深度过高,到各个组件的版本bug,使用组件时发生严重生产故障,以及资源浪费等都是集群治理的常见问题。 灵魂拷问3 对于集群的突发疾病如何精准地解决故障? 对于集群突发的故障,平台应具备全面及时的监控告警,做到分钟级发现告警故障,推送告警通知,这是快速解决故障的前提保障。 对于集群的慢性疾病,应该从底层收集可用的详细数据,分析报告加以利用,通过长期的治理来有效的保障集群的深层次健康(具体请阅读《运维老司机都想要掌握的大数据平台监控技巧》),并开发形成能实实在在落地企业的数据资产管理丶数据治理产品。 下面将针对上面的9个集群问题或故障逐一解答如何解决。 1、底层计算引擎老旧,业务加工占用大量资源且异常缓慢。 集群底层使用MR计算引擎,大量任务未进合理优化,大多数任务占用上千core,上百TB内存,且对集群造成了大量的IO读写压力。 解决手段:通过监控“拎大头”,找出消耗资源巨大的任务,通过业务,计算引擎,参数调优来优化集群资源使用,提高集群算力。 业务优化:从业务角度明确来源数据,减少加载数据量。 计算引擎优化 :MR转Spark。 参数调优:小文件合并优化,内存内核调优,并发量调优,防止数据倾斜。 2、xx集群RPC故障问题。
现象概述:XX产线集群提交作业执行慢; 业务数据加工逻辑为读取HDFS新增文件>>>入库HBase; 遍历列表文件周期为5s。 (编辑:怀化站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |


