SRE Conference 2023 - 11 場議程解密企業 SRE 實踐 + 方法論

SRE Conference 2023 - 富邦國際會議中心

Overview 概述

04-21(五) SRE Conference 2023 在富邦國際會議中心,邀請 11 位來自 iThome、台灣微軟、國泰世華銀行、台積電等企業專家,分享 SRE 方法論、實踐作法,為企業帶來更多競爭力與生產力提升

每一場都是講者的心血精華,所以內容真的很多(光是這篇摘要就將近 5000 字)。推薦在 IT / SRE / DevOps 相關領域打滾的朋友,絕對要花點時間,至少 5 到 10 分鐘,參考學習一下。

議程簡報也全部都上傳在官網議程表了。感謝講者的分享與 iThome 的效率!其中 國泰世華銀行 跟 台積電 的簡報不能公開,可以參考我製作的 mindmap 幫助吸收資訊。

另外,今年這一場研討會的 HackMD 共筆 非常精彩,想看議程細節的朋友,裡面有很完整的筆記。我這篇文章會提更多我自己額外的發想。

🤔 Q: 你想瞭解哪一場 SRE 議程?公司團隊碰到了什麼挑戰?

💪 A: 提問 + 分享 2 個你有興趣的題目,並思考如何應用於自己的團隊。

[閱讀全文]

台灣微軟研討會 - 應用創新起手式 - 打造化繁為簡的雲原生平台

台灣微軟微風信義 19F 辦公室

Overview 概述

03-31(五) 台灣微軟在微風信義 19F 辦公室,邀請 7 場 session 分享如何打造企業的數位轉型與應用創新的基礎: 高效率、彈性靈活且安全的雲原生平台,為企業帶來更多競爭力與生產力提升

今天談得多半是 fundamental 的部分,但是也算是一個 overview 了。若你也是 Dev 軟體工程師, 或 IT Ops 相關從業人員,從來沒接觸過類似概念,蠻推薦瞭解這些關鍵字。

🤔 Q: IT 現代化與我們的開發維運團隊有何關聯?

[閱讀全文]

來點 SRE - 從 ChatGPT 停機公告,學維運事後剖析

來點 SRE - 從 ChatGPT 停機公告,學維運事後剖析

Overview 概述

ChatGPT 在美國時間 3/24(週五) 發布了新的一篇 blog,解釋 3/20(週一) ChatGPT 停機的來龍去脈。

每一次的緊急維修,對於系統維運 SRE 來說都是意義非凡。因為這代表你的服務

  1. 重要到用戶會關注
  2. 必要到每分每秒都在產生價值 (不修復會造成損失)

對於很多企業來說,停機好像是永遠不該發生的事。多半是偷偷改掉不讓用戶發現就過了,怎麼可能大張旗鼓地還發部落格?

從這點就可以看出決定性的差異。

🔎 透明度,及其帶來的信任是關鍵。「我們正在修,出於什麼原因-人事時地物,之後能怎麼避免」。好用,相信你能夠盡快修復的信任感 (Trust),奠基於系統服務的穩定 (Reliability)

❓ 提問: 你的團隊在意這些服務體驗嗎? 一起來看 OpenAI 怎麼示範 SRE 中的 Postmortem (事後剖析)。

[閱讀全文]

2022 TSMC IT Day - 看台積電 CIO 如何以矽谷軟體公司思維打造 IT 數位轉型之路

TSMC IT Day 新技術架構交流與軟體人才對談

Overview 概述

護國神山於 2022-10-29 在 TICC 台北國際會議中心舉辦 2022 TSMC IT Day - 新技術架構交流與軟體人才對談, iThome 也非常迅速地以「台積首度舉辦IT技術日,CIO與4大部門技術主管揭露2年轉型擁抱雲原生的成果」為題摘要了台積數位轉型成果。

畢竟這場 TSMC IT 徵才 ✅ 火力展示大會得由 HR 一一審核後才能參與, 超過 1500 人報名中選的 700 人之一, 機會難得. 所以我也來記錄一下所見與心得, 拋磚引玉跟大家互相討論。

這次我報名的分組議程是由 ICSD Patrick Liu 主講的 TOPIC C 資料中心維運自動化與 TSMC Web Service。上次 DevOpsDays Taipei 2022 時, 則有 BSID 胡君怡的 多雲整合企業應用平台 DevOps SRE 落地實踐, 內容也非常紮實。

[閱讀全文]

HashiCorp Vault 實戰工作坊 - 建構零信任安全策略

Photo by Franck on Unsplash

Overview

Challenges 現況 挑戰

  • 隨著 Security 難度提升, DevOps 及自動化開發維運等工具漸起, API Secret Management 及 Data Security 等議題益發重要。

Objectives 目標 效益

KRs 成果

  • 2022-10-14 參與並完成 workshop 內容, 整理筆記
[閱讀全文]

Google SRE Books

Overview

Google 推行 SRE 也已經好一陣子, 十分認同其中的各種想法與作法. 最近終於能有機會好好整理讀書心得筆記, 持續學習.

因為內容很多, 所以打算以系列文的方式, 不定期地更新內容, 這篇會作為 Summary 使用. 一來紀錄緣由, 二來追蹤進度.

Challenges

  1. Hybrid Cloud Environment Complexity Grows. 身為 IT, 在 Hybrid Cloud 環境與 Micro-service 趨勢下, 帶來的是更多的 Dependency 以及更為複雜的資料流.
  2. Hard to Prove and Maintain Reliability. 在設計 Data Pipeline 的過程中, 除了最終要 Deliver Data to Value 以達到 Business Impact 外, 更需要確保每天的 Data & Services Quality & Reliability, 甚至可以說是服務上線後天天都會遇到的事.
  3. Often Without Clear Value Proposition. 而這些日常維運繁瑣的事務其實有很多可以用工程手段解決/自動化的部分, 但是卻非常容易在繁忙且接踵而來的專案下, 不自覺地疏忽了.
  4. Prioritize ITOps Tasks: 為了及早發現及早還技術債, 應該更有意識地持續分析:
    1. 哪些該先做, 成本效益最佳?
    2. 鎖定目標後, 又該如何實作, 才能真的事半功倍?
    3. 實作完成後, 如何良好衡量優化效益?

Objectives

  • Learn from Google SRE books
    • then introduce and continuously implement and improve current data services design reliability at work.

KRs

  1. 2021-12 完讀 The Site Reliability Workbook (實作細節, 實例)
  2. 2021-12 完讀 Site Reliability Engineering (概念, 文化)
[閱讀全文]