技术博客
文章 标签 分类 关于

稳定性

📄

机器学习平台稳定性基石:Kubernetes生产级保障实践解析

Jul 28, 2025
技术深度解析
机器学习平台稳定性基石:Kubernetes生产级保障实践解析 从平台工程视角看ML/AI基础设施的健壮性 核心观点:ML平台是“平台之上的平台”,其稳定性是算法迭代速度的基石 一个机器学习平台不仅仅是在Kubernetes上运行的普通应 …
📄

电商客户K8S弹性伸缩失控的真实案例分析与架构优化

Jul 25, 2025
云原生技术
本文深入剖析一个真实的电商客户生产案例,该案例中因对K8s弹性伸缩机制的错误理解,导致核心服务在周末发生Pod数量失控,从3个暴增至近90个,造成了严重的资源浪费和业务风险。文章详细记录了从紧急响应、根因诊断到架构根治的全过程,并重点探讨了如何根据工作负载类型选择正确的伸缩指标(从CPU利用率转向Kafka消息积压数),以及在Cluster Autoscaler和Karpenter之间的技术选型思考,为在生产环境中构建稳定、高效、成本可控的云原生弹性架构提供了宝贵的实战经验。
📄

Kubernetes生产级稳定性保障实践

Jul 20, 2025
技术架构
本文档在深入探讨在生产环境中保障Kubernetes平台及应用容器稳定性的高级技术与实践,聚焦于平台工程师和应用开发者在日常工作中面临的具体、棘手的稳定性挑战,并提供经过实战检验的解决方案。
© 2025 技术博客. All rights reserved.