來點 SRE - 從 ChatGPT 停機公告,學維運事後剖析
Overview 概述
ChatGPT 在美國時間 3/24(週五) 發布了新的一篇 blog,解釋 3/20(週一) ChatGPT 停機的來龍去脈。
每一次的緊急維修,對於系統維運 SRE 來說都是意義非凡。因為這代表你的服務
- 重要到用戶會關注
- 必要到每分每秒都在產生價值 (不修復會造成損失)
對於很多企業來說,停機好像是永遠不該發生的事。多半是偷偷改掉不讓用戶發現就過了,怎麼可能大張旗鼓地還發部落格?
從這點就可以看出決定性的差異。
🔎 透明度,及其帶來的信任是關鍵。「我們正在修,出於什麼原因-人事時地物,之後能怎麼避免」。好用,相信你能夠盡快修復的信任感 (Trust),奠基於系統服務的穩定 (Reliability)
❓ 提問: 你的團隊在意這些服務體驗嗎? 一起來看 OpenAI 怎麼示範 SRE 中的 Postmortem (事後剖析)。
[閱讀全文]