2022 TSMC IT Day - 看台積電 CIO 如何以矽谷軟體公司思維打造 IT 數位轉型之路

TSMC IT Day 新技術架構交流與軟體人才對談

Overview 概述

護國神山於 2022-10-29 在 TICC 台北國際會議中心舉辦 2022 TSMC IT Day - 新技術架構交流與軟體人才對談, iThome 也非常迅速地以「台積首度舉辦IT技術日,CIO與4大部門技術主管揭露2年轉型擁抱雲原生的成果」為題摘要了台積數位轉型成果。

畢竟這場 TSMC IT 徵才 ✅ 火力展示大會得由 HR 一一審核後才能參與, 超過 1500 人報名中選的 700 人之一, 機會難得. 所以我也來記錄一下所見與心得, 拋磚引玉跟大家互相討論。

這次我報名的分組議程是由 ICSD Patrick Liu 主講的 TOPIC C 資料中心維運自動化與 TSMC Web Service。上次 DevOpsDays Taipei 2022 時, 則有 BSID 胡君怡的 多雲整合企業應用平台 DevOps SRE 落地實踐, 內容也非常紮實。

更多 Agile & DevOps 的筆記, 有興趣的朋友可以參考我之前的兩篇文章:

本文 Mindmap (2022 TSMC IT Day - 看台積電 CIO 如何以矽谷軟體公司思維打造 IT 數位轉型之路)

Target Audience 目標受眾

  • 對於 TSMC IT 如何數位轉型的有興趣的資訊人
  • 對於 如何在大公司內部推動 DevOps, SRE 的苦命人同道中人 😂

Challenges 現況 挑戰

  • 市場變動頻繁, 商業需求持續快速轉變, 企業規模快速擴張, 如何因應非線性成長及複雜的環境變化, 持續確保公司競爭力?
  • 數位轉型究竟在做什麼? 為什麼重要?
  • (Digital Transformation / DevOps / Big Data / …) is like teenage sex: Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it.

Objectives 目標 效益

  • 瞭解 TSMC IT 如何牽引半導體產業脈動並支援台積全球營運布局?
  • 面對挑戰, IT 又該扮演什麼角色, 採取什麼樣的行動?
  • 探討 TSMC 持續轉型後, 對相關產業帶來的影響及下一步?

KRs 成果

  • A. 總結 TSMC IT Day 的精華內容, 制訂行動方針
  • B. 從台積電 CIO Chris 的高度, 瞭解 TSMC IT 數位轉型佈局之關鍵策略
  • C. 透過 IT 技術主管座談「TSMC IT Redefined & 開箱大解密」, 解析四大處職責定位與使命
  • D. 以 ICSD 資訊基礎建設部門的角度, 分析台積內部產品技術棧的整體架構及走向

0. Summary

因為現場全程禁止攝錄, 故以下是我摘要出來的四大重點, 以 Mindmap-like 的文字方塊呈現

  1. CIO Chris - Scale Digitally: TSMC & IT’s Transformation: 從半導體產業趨勢及商務驅動力看 IT 角色及數位轉型關鍵策略
  2. A Journey of Mindsets, Technologies and Work Styles Change: 4 大策略及產品思維心態改變, 帶動組織運作創新技術與工作型態
  3. ICSD 資料中心維運自動化與 TSMC Web Services: 以 TSMC Web Services 打造如 AWS 般彈性的雲原生產品技術棧, 支援內外產品應用敏捷迭代, 達到 智慧製造及 AI 應用生態系
  4. Takeaway - Think Deep

Run IT as a software tech company: How can we make a difference? – Chris Lin, TSMC CIO

1. CIO Chris - Scale Digitally: TSMC & IT’s Transformation

開場的 Chris 不愧是從 Meta (前 Facebook) 出身, 感受得到滿滿的軟體人思維。

Digital Transformation Driving Force

論述框架從關鍵的驅動力開始談起: 「為什麼 TSMC IT 要數位轉型」

  1. 以 Leading Tech → Business Growth: 因為技術上取得領先地位(奈米製程), 所以客戶採用速度成長, 帶動的也是公司業務成長, 以及相應的人力與技術短缺。
  2. Nonlinear Complexity → New Solution: 先進製程複雜到人力難以處理, 需要想新的方法解決問題。
  3. ESG Transformation: 企業永續經營, 在 2050 年要達到淨零碳排, 技術上勢必要做出創新

Data-driven + Service + Speed + Scale

在業務需求的驅動力之下, 公司如何不斷提升

  1. Innovation Speed 創新速度
  2. Operation Efficiency 維運效率

就變成了重要的課題。其中 data-driven 在 TSMC 這樣的規模, 已是必然, “拍腦袋"的決策方式已經不足以支撐重要判斷了。如何把服務與維運做到 scalable, 更是考驗 TSMC 如何統籌規劃 67000+ 員工與無數客戶的體驗。

Fab Runs on Code: IT 角色為什麼重要

“Fab Runs on Code”, 「用軟體來跑晶圓廠。」這是台積用來形容IT重要性的一句話。(詳見 iThome 系列文: 台積IT全球布局的關鍵轉型:FAB RUNS ON CODE)

從上述的脈絡, 就能比較容易理解, 並將 TSMC IT 的使命切分成以下面向:

  1. Business Activity Scale Up: 支援業務成長
  2. Fab Operation & Automation: 晶圓廠維運自動化
  3. Yield Analysis, Quality, Productivity Boost: 良率分析, 生產力提升

我將 CIO Chris 提到的幾個面向, 擅自濃縮成以下 4 大策略:

4 Strategy

  1. Intelligent Manufacturing; Digital Supply chain: 智慧製造, 數位供應鏈。以 AI 輔助的製造行為, 將是提升良率與維運效率的關鍵
  2. Smart Operation; Eliminate Repetitive Work: 智慧維運。透過 Google SRE 提倡的以軟體消除重複工作, 一樣搭配 AI 輔助提醒, 減少缺失
  3. Modernized Work Style: 現代化工作型態。 mixed reality, RPA, mobile 等讓生活更美好的新工作方法
  4. Modernized Tech Stack; Cloud Native Design: 現代化技術棧。 善用 Cloud native 的社群與工具鏈快速迭代特性, 搭配 DevOps 文化, 讓技術能給所有人易用, 共創更敏捷的服務

把 IT 當作 software tech company, 帶入 Silicon Valley best practices. How can we make a difference? – TSMC CIO, Chris

🥇 另外也有與會者 Q&A 提問 Open source 的看法, 我也十分認同:

  • Design choices 與 solution 選擇就像在挑 T-shirt
  • It’s your style, does it fit your purpose?
  • Show me your taste and your design skills

2. A Journey of Mindsets, Technologies and Work Styles Change

在帶完了滿滿的技術策略與實踐後, Chris 話鋒一轉提到了最關鍵的文化問題。被問到「TSMC 與 Facebook 的不同」,他先是笑著說「要從講英文變成講中文, 不太習慣」😆

在 DevOps 界的大家都明白, 只是導入工具是不夠的, 勢必要有 top-down 支持, 加上 bottom-up 的配合, 同心協力才能夠真的敏捷迭代起來. 而通常這個最難的任務就會落在 CIO 身上. 蠻羨慕也佩服 TSMC 有這樣的決心.

目標導向組織: From Assignment To Virtual Team

當談到文化與心態, 最直接的就是組織型態了, Chris 一語道破關鍵必須從:

  • 舊的模式: R&R 與 Assignment。
  • 轉變到新的模式: 根據你的重要性 而非你 Report 給誰。要解決一個問題, 就必須匯集 Innovators + Domain expert + IT Professionals + Operation Insights 等各領域專家協同處理

🥇 擺脫受害者心態: From Victim To Innovator

另外, 很重要的是擺脫所謂「受害者心態」

  • 從 Live with constraints: 抱怨都是其他人給自己的限制, 所以才沒辦法行動
  • 轉變為 Innovate + Work with constraints. 在已知的限制下, 創新突破

我的理解是就像「寫詩」。就是因為有限制, 所以我們更能自由地創造「美的藝術」。

也像是專案管理中必須處理的「資源配置」, 總是在限制底下尋求更好的解法, 以創造更好的 business outcome。

另外, 關於組織目標從 project-based 調整成 product-based, 也是為了調整成員心態。因為這樣你就會開始想

  • IT 的價值在哪裡?
  • 若我是 Software Tech Company, 能提升公司 Productivity 多少%?
  • 改變做事的心態, 來 Create Value

🥇 從心態做起: Innovate and Go Beyond

Q&A 的環節, 有人提問 Chris 會做 Digital Transformation 的契機或瓶頸是什麼?

他非常打趣地回答是「個性缺陷」😆, by nature 就喜歡挑戰。太簡單的任務反而提不起興趣。

當然,也必須去考慮對公司的重要性, 成果有沒有效就去看 KPI。

並且要做到 Strategic 10-year Planning. 思考未來十年, 「我們希望 System 長什麼樣子」。有了想像與共識之後, 再來規劃如何升級。

另外關於 how to deal with legacy system, Chris 的答案是

  1. 定位為 Single Function Software 調整到穩定的狀態
  2. 將 Know-how 拉出來到 Modernized Technology 持續成長

以上就是乾貨滿滿的 CIO Chris 的開場內容 🎉

3. ICSD - TOPIC C 資料中心維運自動化與 TSMC Web Service

下面是 ICSD Patrick Liu 副處長針對 TSMC 的 infrastructure 的規劃說明

Mission & Challenge

對於 TSMC IT Infra 來說, 主要挑戰在於 Infrastructure 要怎麼做到

  1. 支援組織的快速成長
  2. 快速開發高品質軟體
  3. 協助高科技生產製造, 提升製程技術, 支援應用敏捷迭代, 智慧製造, AI 加值

目前的答案是:

  1. IaC is a MUST: 動機來自 Scalability 的需求
  2. Data-driven 監控維運管理自動化 自我復原.
  3. TSMC Web Services k8s: 建構內部如同 AWS 一般的基礎服務, 加速維運拓展

而 ICSD 的職責, 就像是以下四間公司的組合:

  1. 中華電信: Telecom & Network. 提供基礎網路等服務
  2. Google: Software Defined Data Center. 用軟體加速維運開發
  3. Amazon: Web Service. 提供 IaaS
  4. 數位發展部: Plan & Governance. 制訂規範與監督

動機是:

  1. Worldwide Fab + Data center (10k BM, 100k VM): 大量的基礎設施需要管理
  2. On-prem 機房不夠彈性, 發展業務時會受限
  3. Eliminate SPOF, ensure HA
  4. Non-stop Fab Operation「沒有辦法接受兩三秒的中斷」
  5. From Fast Recovery to Auto Healing

Provisioning & Solution Stack

目前 TSMC 正大力推廣各種現代化維運技術. 例如 從傳統填工單, 到 GitOps:

  • 加速服務提供, 縮短 Release Cycle Time (Months to hours)
  • Empower DevOps & SRE to automate releases changes

並且把 ICSD 提供的服務更進一步拆分成

  • k8s Platform Service for PaaS and SaaS = TSMC Web Services (TWS as AWS)
  • DC Infrastructure for MaaS and IaaS = Data Center Operation Automation

搭配 5-Step Practice, 持續推動 CICD for Infrastructure, Apply Policies, 後 Feedback Loops

  1. Extensible Deployment: Server Agent & Device Data Retriever
  2. Observability: Log Processor
  3. Event Analysis: Event Center + Global Analyzer
  4. Brain & Nerve System: Global NOC - Local NOC
  5. The New Starting Point: + New Policies

TWS - TSMC Web Services

而所謂 TWS, 就是希望打造如同 AWS 一般的服務. 以下條列幾個技術重點

  • 挑戰 k8s 上限: 5k node, 150k pod, 300k containers
  • Security & Identity : Vault, Cert manager, Dex
  • Observability & Governance: OPA, Prometheus, EFK
  • Multi-cluster Service Mesh
  • Why Service Mesh: Enabling for app transformation from monolithic to micro-services by facilitating the management of microservices routing, tracing, security, canary rollout, AB test.

另外也有談到 TWS 也不是一蹴可幾的. TWS Journey 我自己解讀如下:

  1. TKS Standard Service Directory = 1:1. 每一個新的專案, 都是獨立的作法. 高度客製化, 但是維運成本很高, 且會有 silo
  2. Multi Tenant Service Platform = 1:N. 用同一種服務, 讓 N 個人登錄進來自行使用. 做到了工具與流程統一, 但是可能客製化程度與彈性還不夠高.
  3. TSMC Web Services = N:N. 真正做到 N 個人, N 組需求, 就用 TWS 上面的 N 個服務自己組裝. 既能達到高度客製化, 又能維持平台化的統一工具流程Í

4. Takeaway - Think Deep

聽完 TSMC 的分享, 其實感觸真的非常深, 希望自己在推廣的時候也有這樣的高度與規模. 以下就記錄 3 點 takeaway, 期許之後的規劃能夠更上層樓.

A. Impact 發揮影響力

  • 目標方向
    • 支援組織的快速成長
    • 快速開發高品質軟體
    • 支援敏捷迭代, 智慧設計, AI 加值
  • 實務行動
    • 對齊商務需求
    • 橫向串聯 IT
    • k8s / AI MLOps

B. Value 交付價值

  • Data Citizen
    • 加速 know-how 建置累積
    • 加速分析
    • 縮短 Time to market
  • Governance
    • 從 數據 & 行為面治理
    • 迭代 Policy
  • 彈性 穩定 透明的技術平台
    • 支撐賦能 & 應用
    • 形成交付價值流
    • 提升維運效率

C. Culture 深耕文化

  • 管理面
    • Top-down 主管決心
    • 全員心態 & 工作模式改變
    • 方法論與管理指標
  • 技術面
    • SRE
    • DevOps

延伸閱讀

你怎麼看?

留下你的想法一起討論吧! 🥳

Murmur

  • 2022-10-30: Mindset, Culture, Style & Taste, 感同身受…!
  • 2022-12-17: 思緒很多, 拖到現在才 release… 要學著更敏捷發文 😂

其他相關