Overview
Google 推行 SRE 也已經好一陣子, 十分認同其中的各種想法與作法. 最近終於能有機會好好整理讀書心得筆記, 持續學習.
因為內容很多, 所以打算以系列文的方式, 不定期地更新內容, 這篇會作為 Summary 使用. 一來紀錄緣由, 二來追蹤進度.
Challenges
- Hybrid Cloud Environment Complexity Grows. 身為 IT, 在 Hybrid Cloud 環境與 Micro-service 趨勢下, 帶來的是更多的 Dependency 以及更為複雜的資料流.
- Hard to Prove and Maintain Reliability. 在設計 Data Pipeline 的過程中, 除了最終要 Deliver Data to Value 以達到 Business Impact 外, 更需要確保每天的 Data & Services Quality & Reliability, 甚至可以說是服務上線後天天都會遇到的事.
- Often Without Clear Value Proposition. 而這些日常維運繁瑣的事務其實有很多可以用工程手段解決/自動化的部分, 但是卻非常容易在繁忙且接踵而來的專案下, 不自覺地疏忽了.
- Prioritize ITOps Tasks: 為了及早發現及早還技術債, 應該更有意識地持續分析:
- 哪些該先做, 成本效益最佳?
- 鎖定目標後, 又該如何實作, 才能真的事半功倍?
- 實作完成後, 如何良好衡量優化效益?
Objectives
- Learn from Google SRE books
- then introduce and continuously implement and improve current data services design reliability at work.
KRs
- 2021-12 完讀 The Site Reliability Workbook (實作細節, 實例)
- 2021-12 完讀 Site Reliability Engineering (概念, 文化)
Index
因為兩本書的內容多有重疊, 目前我打算以 workbook 實例為主, sre-book 概念為輔, 統整內容.
I. Foundation & Principles
- Eliminating Toil
- SLO
- Monitoring
II. Practices
- Incidents
- Postmortem Culture: Learning from Failure
- Data Processing Pipelines
- Configuration Design and Best Practices
III. Processes & Management
- SRE Engagement Model
- SRE Team Lifecycles, Communication and Collaboration in SRE
IV. Conclusion
The Site Reliability Workbook
- 實作細節, 實例
- Part I - Foundations
- Part II - Practices
- Part III - Processes
- Conclusion
Site Reliability Engineering
- 概念, 文化
- Part I - Introduction
- Part II - Principles
- Part III - Practices
- Part IV - Management
- Part V - Conclusions
Ref
Murmur
- 2021-07-11. 學無止境! 科技來自於人性… 懶就是一切的原動力 😎