Kubernetes Summit 2024
Overview 概述
今年這一場研討會的 HackMD 共筆 非常精彩,想看議程細節的朋友,裡面有很完整的筆記。我這篇文章會提更多我自己額外的發想。
🤔 Q: 你想瞭解哪一場 k8s 議程?公司團隊碰到了什麼挑戰?
💪 A: 提問 + 分享 2 個你有興趣的題目,並思考如何應用於自己的團隊。
Agenda
Kubernetes Summit 2024 - N 場議程與總結反思. Markmap
官網議程表 有完整簡介,以下是我有興趣的議程整理,可以快速瀏覽有興趣的公司與題目 (🥇 是我個人推薦的)
Keynote 1: 加速 AI 創新:在 Kubernetes 上構建可擴展、安全且高效的 AI 平台
Keynote 2: 2024 臺灣大型企業雲原生態勢與 GAI 衝擊
- Session Page
- 【iThome 2024 CIO大調查系列1】AI、資安和永續變革三箭齊發
- 【iThome 2024 CIO大調查系列2】生成式AI創新潮吹進各產業
- 【iThome 2024 CIO大調查系列3】生成式AI加速企業上雲
- 【iThome 2024 CIO大調查系列4】CIO的GAI挑戰
- 【iThome 2024 CIO大調查系列5】臺灣企業DevOps再進化
- 【iThome 2024 CIO大調查系列6】2024企業技術雷達圖
- 向金融先行者學GAI創新
- Gartner: Digital Immune System (數位免疫)
🥇 Keynote 3: 雲端節費 20% 策略:利用 100% Spot Kubernetes 打造低成本、高可靠應用架構
Keynote 4: 104 在 GitOps 大規模實踐中的甜蜜與苦澀
Keynote 5: BMC 及 GCP Gemini 攜手領航未來 IT AIOps 布局
- Session Page
- Goal: 使用生成式 AI 提升 IT 營運效率
- Notes
- Challenges faced by modern ITOps
- Data from multiple sources
- Alert fatigue
- Manual processes
- 如何降低MTTR
- 降低Noise
- 降低effort
- 提升user experience
- IT operation (ITO)
- 一個閉環,包含observe, engage, act
- 目標是希望集中OPS,更快知道現況的狀態,各部位的關聯性
- 把事件集中,避免event風暴
- 需要工具去建立服務拓樸configuration item
- 各種監控的集中和收攏,並加以預測
- 太多的事件收集後應該要能夠分類分群
- 每天事件幾千筆,大家就不看了
- 透過分類分群後,找到影響,排出priority之後IT才能處理
- Proactive problem management
- 平台呈現只要發生這個問題,會產生多少折損
- 提供知識庫的推薦讓你知道如何解決這個問題
- Challenges faced by modern ITOps
🥇 Workshop 1: Google Cloud 實作工作坊:在 GKE 上微調開源大型語言模型
- Workshop Page
- Goal: 使用 8 x L4 GPUs 在 GKE 中執行 Llama 2 7b 模型微調任務
- Ref Fine-tuning 微調
🥇 Workshop 2: Google Cloud 實作工作坊:透過 OpenTelemetry 簡化可觀測性
- Workshop Page
- Goal: 了解最新 OpenTelemetry 與遙測技術資訊與趨勢
- Google Slide
- Ref OTel
- Notes
- 剛上線的話取樣率大概開 10%, 平常開 25%
🥇 Workshop 3: Google Cloud 實作工作坊:透過 GKE Autopilot 部署專屬於您的私人 AI 機器人服務
- Workshop Page
- Goal: 在 GKE Autopilot 上部署自己的 AI 聊天機器人,能確保資料不外洩,且兼顧成本效益
🥇 Workshop 4: Google Cloud 實作工作坊:開發生成式 AI 應用程式並部署於 Cloud Run
- Workshop Page
- Goal: 使用 Vertex AI SDK for Python 進而呼叫 Vertex AI Gemini API
Interesting Sessions
- Get started with Etcd & Kubernetes / 手把手搭建 Etcd 與 K8s
- 🥇 Code-Driven Development and Monitoring of Machine Learning Services on Kubernetes
- 多租戶 K8s 管理實務:資源優化、實用技巧與升級策略
- Troubleshooting and Workaround in Kubernetes
- 為美好的世界獻上 Helm Chart
- 你的 Secret 安全嗎?透過機密管理降低 DevOps 和雲端安全風險
- Running and Securing your GenAI+LLM workloads on Kubernetes 如何在 Kubernetes 上高效運行並保護您的生成式 AI + 大語言模型工作負載
- 🥈 Semantic Layer for Data Sharing With Cube
- 如何不經意地搞壞 Kubernetes?
- Three Principles:
- Default values everywhere.
- Two should be enough.
- Client is always right.
- 四個案例:
- 設定 liveness 以及 readiness 可能導致的重啟狀況
- 未設定 CPU 以及 記憶體的資源限制可能導致資源耗盡
- Pod 在只有兩個 node 時,有設定 PDB 或是節點親和性時,可能導致節點無法更新
- 更新憑證時,缺少中繼憑證導致 ssl 連線可能於較早期產品失敗
- Three Principles:
- Protect Kubernetes secret and data with Thales CipherTrust Platform
- 🥇 以平台工程重新思考系統設計 - 以 Batch System 為例
- Slide
- Batch System
- 觸發方式:週期性
- 依照外部依賴變化
- 以軟體視角來設計 (但忽略了以系統層面思考的視角)
- 以 scheduler framework
- 額外開發 API 監控外部資源
- 透過外部 Flag 來取消任務
- 因此改用平台工程的視角: Argo Workflow
- Container 模板 (隔離環境)
- Script 模板
- Resource 模板(管理 k8s resource)
- Http 模板
- Argo Workflow 兩種流程管理:Step (線性), DAG
- 觸發方式: API, Cron
- Argo Event: 提供多樣性的資源監控. git, schedule, s3, etc.
- 透過 GitOps & K8s operator: 自動化系統內的任務版本控管
- 搭配 k8s operator
- 搭配 k8s operator 監控特定 CR 有無產收(通過監控 ns 下特定的 CR 獲取 batch system 的狀態資料)
- 將 schedule job 在系統的建立統一入口
- 優勢
- 任務服務化 (實現 workflow as a service)
- event driven (更容易達成事件驅動,而不是傳統時間驅動)
- 資源利用(優化資源噴配,提供集群利用率)
- 統一監控告警(Batch system 集中,更容易監控與告警)
- 🥇How Generative AI Helps in Kubernetes Operations
- 使用 Kubernetes Operator 自動化 Day 2 Operations
- 🥇 Optimize Kubernetes with Generative AI
- 銀行業導入與管理 Hashicorp Vault 之經驗分享
- 🥉 自建 K8s 環境中的高可用性規劃和災難復原方式
- 🥇 Kubernetes for Data Engineers: Building Scalable, Reliable Data Pipelines: dbt
- 在地端 K8s 的排障故事分享
- 雲原生批次作業 Cloud Native Batch Job
- 🥈 Kubernetes 與 SWAP 的愛恨情仇
Ref: General LLM
- The Rise and Rise of A.I. Large Language Models (LLMs)
- Applied LLM Foundations and Real World Use Cases
- llm_interview_note
- 🤖 100 Days of Generative AI — Day 2 — LLM Tokens vs Parameters ? 🤖
Ref: GCP Vertex AI
- GCP: Infrastructure for a RAG-capable generative AI application using Vertex AI
- 使用 Vertex AI 建構 Google 等級的搜尋系統
- Google Vertex AI平臺新增Grounding功能解決AI幻覺
- Gemini 1.5 Flash-8B 现在可投入使用
- Search engines made simple: A low-code approach with GKE and Vertex AI Agent Builder
Ref: Others
💡 總結反思
你怎麼看?
留下你的想法一起討論吧! 🥳
💌 訂閱免費電子報, 即時不漏接: https://programmur.substack.com
每週 1~2 篇 3000 字 6 分鐘文章,一起探索科技旅程 Explore tech journey
您的訂閱與回饋,就是對我寫文章最大的支持 🥳
延伸閱讀
|
|
Murmur
- 2024-10-24: 乾貨滿滿!