Kubernetes

📄

容器化应用性能优化核心实践:从应用到内核的全景指南

技术实践
本文提供一个系统性的性能优化框架,从应用层到内核层,逐层剖析容器化应用可能遇到的性能瓶颈,并提供包含代码、配置示例在内的具体最佳实践和技术建议。
📄

LLM大模型推理优化:一套系统化的全栈工程方法

LLM大模型推理优化:一套系统化的全栈工程方法 引言:从全功能AI平台到LLM推理优化的深度聚焦 本文的探讨,源于我对研发的AI机器学习平台的工作总结和持续迭代的工作思考以及业界对于LLM模型推理的诉求重视程度越来越高:一个基于GPU集群、 …
📄

企业级SaaS平台架构设计:五大核心支柱深度解析

技术方案
企业级SaaS平台架构设计文档 文档版本历史 版本 日期 作者 文档描述 1.0 2025-06-14 刘晋勋 初版创建,定义了SaaS架构的五大核心支柱及其实现策略。 1. 概述 在本人10多年的工作经历里,主导开发了阿里云CADT、长安 …
📄

多云战略下的双赢架构:来自云厂商与客户的双重视角

技术战略
多云战略下的双赢架构:来自云厂商与客户的双重视角 文档版本历史 版本 日期 作者 文档描述 1.0 2025-07-30 刘晋勋 初版创建,整合了从客户和云厂商双重视角看待多云战略的架构设计与应对策略。 引言:我的双重身份与思考 我既在领先 …
📄

Karmada技术深度解析:新一代云原生多集群管理利器

技术深度解析
Karmada技术深度解析:新一代云原生多集群管理利器 引言 随着云原生技术的普及,多云(Multi-Cloud)、混合云(Hybrid-Cloud)以及边缘计算(Edge Computing)已成为企业IT架构的常态。在这样的背景下,如何 …
📄

机器学习平台稳定性基石:Kubernetes生产级保障实践解析

技术深度解析
机器学习平台稳定性基石:Kubernetes生产级保障实践解析 从平台工程视角看ML/AI基础设施的健壮性 核心观点:ML平台是“平台之上的平台”,其稳定性是算法迭代速度的基石 一个机器学习平台不仅仅是在Kubernetes上运行的普通应 …
📄

构建生产级Kubernetes Operator:从实践中提炼的健壮性设计模式

云原生架构
构建生产级Kubernetes Operator:从实践中提炼的健壮性设计模式 作者: Gemini 日期: 2025年7月28日 摘要 本文档旨在沉淀和分享在研发大规模机器学习平台及其他云原生服务的过程中,关于如何设计、开发和维护生产 …
📄

电商客户K8S弹性伸缩失控的真实案例分析与架构优化

云原生技术
本文深入剖析一个真实的电商客户生产案例,该案例中因对K8s弹性伸缩机制的错误理解,导致核心服务在周末发生Pod数量失控,从3个暴增至近90个,造成了严重的资源浪费和业务风险。文章详细记录了从紧急响应、根因诊断到架构根治的全过程,并重点探讨了如何根据工作负载类型选择正确的伸缩指标(从CPU利用率转向Kafka消息积压数),以及在Cluster Autoscaler和Karpenter之间的技术选型思考,为在生产环境中构建稳定、高效、成本可控的云原生弹性架构提供了宝贵的实战经验。
📄

多K8S集群统一调度与管理实践-在研发机器学习平台中的应用

云原生
随着机器学习平台的业务发展,单一K8S集群在资源容量、物理隔离和异构资源管理方面逐渐暴露瓶颈。本文详细阐述了构建多K8S集群管理和调度系统所面临的核心挑战、系统架构设计,并结合业界主流方案(如Karmada)分析了技术选型考量与实践经验。
📄

Kubernetes生产级稳定性保障实践

技术架构
本文档在深入探讨在生产环境中保障Kubernetes平台及应用容器稳定性的高级技术与实践,聚焦于平台工程师和应用开发者在日常工作中面临的具体、棘手的稳定性挑战,并提供经过实战检验的解决方案。
📄

解析Kubernetes的接口哲学与插件架构

技术架构
解析Kubernetes的接口哲学与插件架构 摘要 Kubernetes(K8S)之所以能成为容器编排领域的事实标准,其强大的核心功能固然重要,但其无与伦比的开放性和可扩展性更是关键所在。这种扩展能力并非偶然,而是源于一套精心设计的接口体系 …
📄

构建云原生机器学习平台的架构与实践

技术架构
从基础设施和软件架构师的双重视角,深入探讨如何利用云原生技术栈为算法工程师打造一个服务于模型全生命周期的、高效、稳定且易用的机器学习平台。
📄

Kubernetes自定义控制器开发指南:从一个真实业务场景出发

云原生
本文档从一个私有云环境下的常见运维痛点——自动化节点缩容——出发,详细阐述了如何从零开始构建一个生产级的 Kubernetes 自定义控制器(Operator)。
📄

Kubernetes自定义控制器开发指南:从一个真实业务场景出发

云原生
本文档从一个私有云环境下的常见运维痛点——自动化节点缩容——出发,详细阐述了如何从零开始构建一个生产级的 Kubernetes 自定义控制器(Operator)。我们首先会定义业务问题及其挑战,然后深入剖析控制器背后的核心原理(Informer、Workqueue),最后通过 controller-runtime 框架,一步步实现一个功能完备、代码健壮、遵循工程最佳实践的 NodeScaler Operator。本文档旨在帮助开发者将理论与实践相结合,构建出真正能解决实际问题的自定义控制器。
📄

K8s健康检查探针架构深度解析与最佳实践

云原生
本文旨在系统性地解析Kubernetes健康检查的架构、原理与最佳实践,为SRE和研发工程师提供一份清晰、可落地的行动指南。
📄

Nacos服务注册发现和配置管理的生产实践

云原生
深入探讨Nacos在生产环境中的服务注册发现和配置管理最佳实践,包括版本选择、推空保护、与Kubernetes集成等关键特性
📄

AWS EKS 节点选型与自动化弹性成本优化最佳实践

云原生
AWS EKS 节点选型与自动化弹性成本优化最佳实践 随着越来越多的应用容器化以后开始部署在云服务商提供的托管Kubernetes集群,对于成本优化与性能平衡之间的考虑就变得很重要。基于自己的实践与调研,我总结了这篇文档,以AWS EKS为 …
📄

Kubernetes中的CPU Burst机制:容器性能调优指南

云原生
Kubernetes中的CPU Burst机制:容器性能调优指南 在我的工作经历里,多次进行了容器化应用在Kubernetes部署环境的性能诊断与优化,本文是对 CPU Burst在应对容器化应用的 CPU 节流问题的技术总结。 1. …
📄

Istio 服务网格入门指南

云原生
深入浅出理解 Istio 服务网格的核心概念、架构设计和实践应用