Sre -

來點 SRE - 從 ChatGPT 停機公告，學維運事後剖析

發表於 2023-03-25 (最後修改於 2024-09-14) | 4 分鐘 | 1764 個字 | androchentw

_{^{來點 SRE - 從 ChatGPT 停機公告，學維運事後剖析}}

ChatGPT 在美國時間 3/24(週五) 發布了新的一篇 blog，解釋 3/20(週一) ChatGPT 停機的來龍去脈。

每一次的緊急維修，對於系統維運 SRE 來說都是意義非凡。因為這代表你的服務

對於很多企業來說，停機好像是永遠不該發生的事。多半是偷偷改掉不讓用戶發現就過了，怎麼可能大張旗鼓地還發部落格？

從這點就可以看出決定性的差異。

🔎 透明度，及其帶來的信任是關鍵。「我們正在修，出於什麼原因-人事時地物，之後能怎麼避免」。好用，相信你能夠盡快修復的信任感 (Trust)，奠基於系統服務的穩定 (Reliability)

❓ 提問: 你的團隊在意這些服務體驗嗎？一起來看 OpenAI 怎麼示範 SRE 中的 Postmortem (事後剖析)。

發表於 2021-07-11 (最後修改於 2023-04-16) | 2 分鐘 | 583 個字 | androchentw

Google 推行 SRE 也已經好一陣子, 十分認同其中的各種想法與作法. 最近終於能有機會好好整理讀書心得筆記, 持續學習.

因為內容很多, 所以打算以系列文的方式, 不定期地更新內容, 這篇會作為 Summary 使用. 一來紀錄緣由, 二來追蹤進度.

Hybrid Cloud Environment Complexity Grows. 身為 IT, 在 Hybrid Cloud 環境與 Micro-service 趨勢下, 帶來的是更多的 Dependency 以及更為複雜的資料流.
Hard to Prove and Maintain Reliability. 在設計 Data Pipeline 的過程中, 除了最終要 Deliver Data to Value 以達到 Business Impact 外, 更需要確保每天的 Data & Services Quality & Reliability, 甚至可以說是服務上線後天天都會遇到的事.
Often Without Clear Value Proposition. 而這些日常維運繁瑣的事務其實有很多可以用工程手段解決/自動化的部分, 但是卻非常容易在繁忙且接踵而來的專案下, 不自覺地疏忽了.
Prioritize ITOps Tasks: 為了及早發現及早還技術債, 應該更有意識地持續分析:
1. 哪些該先做, 成本效益最佳?
2. 鎖定目標後, 又該如何實作, 才能真的事半功倍?
3. 實作完成後, 如何良好衡量優化效益?

Learn from Google SRE books
- then introduce and continuously implement and improve current data services design reliability at work.