Overview 概述
護國神山於 2022-10-29 在 TICC 台北國際會議中心舉辦 2022 TSMC IT Day - 新技術架構交流與軟體人才對談, iThome 也非常迅速地以「台積首度舉辦IT技術日,CIO與4大部門技術主管揭露2年轉型擁抱雲原生的成果」為題摘要了台積數位轉型成果。
畢竟這場 TSMC IT 徵才 ✅ 火力展示大會得由 HR 一一審核後才能參與, 超過 1500 人報名中選的 700 人之一, 機會難得. 所以我也來記錄一下所見與心得, 拋磚引玉跟大家互相討論。
這次我報名的分組議程是由 ICSD Patrick Liu 主講的 TOPIC C 資料中心維運自動化與 TSMC Web Service。上次 DevOpsDays Taipei 2022 時, 則有 BSID 胡君怡的 多雲整合企業應用平台 DevOps SRE 落地實踐, 內容也非常紮實。
更多 Agile & DevOps 的筆記, 有興趣的朋友可以參考我之前的兩篇文章:
- Agile Summit 2022 敏捷高峰盛會 - VUCA 時代敏捷導入 + 持續交付價值
- DevOpsDays Taipei 2022 - 企業 IT 數位轉型投資成長 + 持續交付高品質可用產品
本文 Mindmap (2022 TSMC IT Day - 看台積電 CIO 如何以矽谷軟體公司思維打造 IT 數位轉型之路)
Target Audience 目標受眾
- 對於 TSMC IT 如何數位轉型的有興趣的資訊人
- 對於 如何在大公司內部推動 DevOps, SRE 的
苦命人同道中人 😂
Challenges 現況 挑戰
- 市場變動頻繁, 商業需求持續快速轉變, 企業規模快速擴張, 如何因應非線性成長及複雜的環境變化, 持續確保公司競爭力?
- 數位轉型究竟在做什麼? 為什麼重要?
- (Digital Transformation / DevOps / Big Data / …) is like teenage sex: Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it.
Objectives 目標 效益
- 瞭解 TSMC IT 如何牽引半導體產業脈動並支援台積全球營運布局?
- 面對挑戰, IT 又該扮演什麼角色, 採取什麼樣的行動?
- 探討 TSMC 持續轉型後, 對相關產業帶來的影響及下一步?
KRs 成果
- A. 總結 TSMC IT Day 的精華內容, 制訂行動方針
- B. 從台積電 CIO Chris 的高度, 瞭解 TSMC IT 數位轉型佈局之關鍵策略
- C. 透過 IT 技術主管座談「TSMC IT Redefined & 開箱大解密」, 解析四大處職責定位與使命
- D. 以 ICSD 資訊基礎建設部門的角度, 分析台積內部產品技術棧的整體架構及走向
0. Summary
因為現場全程禁止攝錄, 故以下是我摘要出來的四大重點, 以 Mindmap-like 的文字方塊呈現
- CIO Chris - Scale Digitally: TSMC & IT’s Transformation: 從半導體產業趨勢及商務驅動力看 IT 角色及數位轉型關鍵策略
- A Journey of Mindsets, Technologies and Work Styles Change: 4 大策略及產品思維心態改變, 帶動組織運作創新技術與工作型態
- ICSD 資料中心維運自動化與 TSMC Web Services: 以 TSMC Web Services 打造如 AWS 般彈性的雲原生產品技術棧, 支援內外產品應用敏捷迭代, 達到 智慧製造及 AI 應用生態系
- Takeaway - Think Deep
Run IT as a software tech company: How can we make a difference? – Chris Lin, TSMC CIO
1. CIO Chris - Scale Digitally: TSMC & IT’s Transformation
開場的 Chris 不愧是從 Meta (前 Facebook) 出身, 感受得到滿滿的軟體人思維。
Digital Transformation Driving Force
論述框架從關鍵的驅動力開始談起: 「為什麼 TSMC IT 要數位轉型」
- 以 Leading Tech → Business Growth: 因為技術上取得領先地位(奈米製程), 所以客戶採用速度成長, 帶動的也是公司業務成長, 以及相應的人力與技術短缺。
- Nonlinear Complexity → New Solution: 先進製程複雜到人力難以處理, 需要想新的方法解決問題。
- ESG Transformation: 企業永續經營, 在 2050 年要達到淨零碳排, 技術上勢必要做出創新
Data-driven + Service + Speed + Scale
在業務需求的驅動力之下, 公司如何不斷提升
- Innovation Speed 創新速度
- Operation Efficiency 維運效率
就變成了重要的課題。其中 data-driven 在 TSMC 這樣的規模, 已是必然, “拍腦袋"的決策方式已經不足以支撐重要判斷了。如何把服務與維運做到 scalable, 更是考驗 TSMC 如何統籌規劃 67000+ 員工與無數客戶的體驗。
Fab Runs on Code: IT 角色為什麼重要
“Fab Runs on Code”, 「用軟體來跑晶圓廠。」這是台積用來形容IT重要性的一句話。(詳見 iThome 系列文: 台積IT全球布局的關鍵轉型:FAB RUNS ON CODE)
從上述的脈絡, 就能比較容易理解, 並將 TSMC IT 的使命切分成以下面向:
- Business Activity Scale Up: 支援業務成長
- Fab Operation & Automation: 晶圓廠維運自動化
- Yield Analysis, Quality, Productivity Boost: 良率分析, 生產力提升
我將 CIO Chris 提到的幾個面向, 擅自濃縮成以下 4 大策略:
4 Strategy
- Intelligent Manufacturing; Digital Supply chain: 智慧製造, 數位供應鏈。以 AI 輔助的製造行為, 將是提升良率與維運效率的關鍵
- Smart Operation; Eliminate Repetitive Work: 智慧維運。透過 Google SRE 提倡的以軟體消除重複工作, 一樣搭配 AI 輔助提醒, 減少缺失
- Modernized Work Style: 現代化工作型態。 mixed reality, RPA, mobile 等讓生活更美好的新工作方法
- Modernized Tech Stack; Cloud Native Design: 現代化技術棧。 善用 Cloud native 的社群與工具鏈快速迭代特性, 搭配 DevOps 文化, 讓技術能給所有人易用, 共創更敏捷的服務
把 IT 當作 software tech company, 帶入 Silicon Valley best practices. How can we make a difference? – TSMC CIO, Chris
🥇 另外也有與會者 Q&A 提問 Open source 的看法, 我也十分認同:
- Design choices 與 solution 選擇就像在挑 T-shirt
- It’s your style, does it fit your purpose?
- Show me your taste and your design skills
2. A Journey of Mindsets, Technologies and Work Styles Change
在帶完了滿滿的技術策略與實踐後, Chris 話鋒一轉提到了最關鍵的文化問題。被問到「TSMC 與 Facebook 的不同」,他先是笑著說「要從講英文變成講中文, 不太習慣」😆
在 DevOps 界的大家都明白, 只是導入工具是不夠的, 勢必要有 top-down 支持, 加上 bottom-up 的配合, 同心協力才能夠真的敏捷迭代起來. 而通常這個最難的任務就會落在 CIO 身上. 蠻羨慕也佩服 TSMC 有這樣的決心.
目標導向組織: From Assignment To Virtual Team
當談到文化與心態, 最直接的就是組織型態了, Chris 一語道破關鍵必須從:
- 舊的模式: R&R 與 Assignment。
- 轉變到新的模式: 根據你的重要性 而非你 Report 給誰。要解決一個問題, 就必須匯集 Innovators + Domain expert + IT Professionals + Operation Insights 等各領域專家協同處理
🥇 擺脫受害者心態: From Victim To Innovator
另外, 很重要的是擺脫所謂「受害者心態」
- 從 Live with constraints: 抱怨都是其他人給自己的限制, 所以才沒辦法行動
- 轉變為 Innovate + Work with constraints. 在已知的限制下, 創新突破
我的理解是就像「寫詩」。就是因為有限制, 所以我們更能自由地創造「美的藝術」。
也像是專案管理中必須處理的「資源配置」, 總是在限制底下尋求更好的解法, 以創造更好的 business outcome。
另外, 關於組織目標從 project-based 調整成 product-based, 也是為了調整成員心態。因為這樣你就會開始想
- IT 的價值在哪裡?
- 若我是 Software Tech Company, 能提升公司 Productivity 多少%?
- 改變做事的心態, 來 Create Value
🥇 從心態做起: Innovate and Go Beyond
Q&A 的環節, 有人提問 Chris 會做 Digital Transformation 的契機或瓶頸是什麼?
他非常打趣地回答是「個性缺陷」😆, by nature 就喜歡挑戰。太簡單的任務反而提不起興趣。
當然,也必須去考慮對公司的重要性, 成果有沒有效就去看 KPI。
並且要做到 Strategic 10-year Planning. 思考未來十年, 「我們希望 System 長什麼樣子」。有了想像與共識之後, 再來規劃如何升級。
另外關於 how to deal with legacy system, Chris 的答案是
- 定位為 Single Function Software 調整到穩定的狀態
- 將 Know-how 拉出來到 Modernized Technology 持續成長
以上就是乾貨滿滿的 CIO Chris 的開場內容 🎉
3. ICSD - TOPIC C 資料中心維運自動化與 TSMC Web Service
下面是 ICSD Patrick Liu 副處長針對 TSMC 的 infrastructure 的規劃說明
Mission & Challenge
對於 TSMC IT Infra 來說, 主要挑戰在於 Infrastructure 要怎麼做到
- 支援組織的快速成長
- 快速開發高品質軟體
- 協助高科技生產製造, 提升製程技術, 支援應用敏捷迭代, 智慧製造, AI 加值
目前的答案是:
- IaC is a MUST: 動機來自 Scalability 的需求
- Data-driven 監控維運管理自動化 自我復原.
- TSMC Web Services k8s: 建構內部如同 AWS 一般的基礎服務, 加速維運拓展
而 ICSD 的職責, 就像是以下四間公司的組合:
- 中華電信: Telecom & Network. 提供基礎網路等服務
- Google: Software Defined Data Center. 用軟體加速維運開發
- Amazon: Web Service. 提供 IaaS
- 數位發展部: Plan & Governance. 制訂規範與監督
動機是:
- Worldwide Fab + Data center (10k BM, 100k VM): 大量的基礎設施需要管理
- On-prem 機房不夠彈性, 發展業務時會受限
- Eliminate SPOF, ensure HA
- Non-stop Fab Operation「沒有辦法接受兩三秒的中斷」
- From Fast Recovery to Auto Healing
Provisioning & Solution Stack
目前 TSMC 正大力推廣各種現代化維運技術. 例如 從傳統填工單, 到 GitOps:
- 加速服務提供, 縮短 Release Cycle Time (Months to hours)
- Empower DevOps & SRE to automate releases changes
並且把 ICSD 提供的服務更進一步拆分成
- k8s Platform Service for PaaS and SaaS = TSMC Web Services (TWS as AWS)
- DC Infrastructure for MaaS and IaaS = Data Center Operation Automation
搭配 5-Step Practice, 持續推動 CICD for Infrastructure, Apply Policies, 後 Feedback Loops
- Extensible Deployment: Server Agent & Device Data Retriever
- Observability: Log Processor
- Event Analysis: Event Center + Global Analyzer
- Brain & Nerve System: Global NOC - Local NOC
- The New Starting Point: + New Policies
TWS - TSMC Web Services
而所謂 TWS, 就是希望打造如同 AWS 一般的服務. 以下條列幾個技術重點
- 挑戰 k8s 上限: 5k node, 150k pod, 300k containers
- Security & Identity : Vault, Cert manager, Dex
- Observability & Governance: OPA, Prometheus, EFK
- Multi-cluster Service Mesh
- Why Service Mesh: Enabling for app transformation from monolithic to micro-services by facilitating the management of microservices routing, tracing, security, canary rollout, AB test.
另外也有談到 TWS 也不是一蹴可幾的. TWS Journey 我自己解讀如下:
- TKS Standard Service Directory = 1:1. 每一個新的專案, 都是獨立的作法. 高度客製化, 但是維運成本很高, 且會有 silo
- Multi Tenant Service Platform = 1:N. 用同一種服務, 讓 N 個人登錄進來自行使用. 做到了工具與流程統一, 但是可能客製化程度與彈性還不夠高.
- TSMC Web Services = N:N. 真正做到 N 個人, N 組需求, 就用 TWS 上面的 N 個服務自己組裝. 既能達到高度客製化, 又能維持平台化的統一工具流程Í
4. Takeaway - Think Deep
聽完 TSMC 的分享, 其實感觸真的非常深, 希望自己在推廣的時候也有這樣的高度與規模. 以下就記錄 3 點 takeaway, 期許之後的規劃能夠更上層樓.
A. Impact 發揮影響力
- 目標方向
- 支援組織的快速成長
- 快速開發高品質軟體
- 支援敏捷迭代, 智慧設計, AI 加值
- 實務行動
- 對齊商務需求
- 橫向串聯 IT
- k8s / AI MLOps
B. Value 交付價值
- Data Citizen
- 加速 know-how 建置累積
- 加速分析
- 縮短 Time to market
- Governance
- 從 數據 & 行為面治理
- 迭代 Policy
- 彈性 穩定 透明的技術平台
- 支撐賦能 & 應用
- 形成交付價值流
- 提升維運效率
C. Culture 深耕文化
- 管理面
- Top-down 主管決心
- 全員心態 & 工作模式改變
- 方法論與管理指標
- 技術面
- SRE
- DevOps
延伸閱讀
- Agile Summit 2022 敏捷高峰盛會 - VUCA 時代敏捷導入 + 持續交付價值
- DevOpsDays Taipei 2022 - 企業 IT 數位轉型投資成長 + 持續交付高品質可用產品
- iThome - 台積首度舉辦IT技術日,CIO與4大部門技術主管揭露2年轉型擁抱雲原生的成果
- iThome - 台積數位轉型的關鍵,靠現代化軟體架構實現全球晶圓廠的運作
- iThome - 台積全球資料中心維運高度自動化的關鍵
你怎麼看?
留下你的想法一起討論吧! 🥳
Murmur
- 2022-10-30: Mindset, Culture, Style & Taste, 感同身受…!
- 2022-12-17: 思緒很多, 拖到現在才 release… 要學著更敏捷發文 😂