EP-71|學習 AI 代理(例如龍蝦、Claude Code),為什麼一定要使用黑黑的終端機畫面?
你有沒有想過,為什麼學 Claude Code、龍蝦這類 AI 工具,都要用黑黑的終端機畫面?這篇文章從 1960 年代的打孔卡講起,帶你看懂 CLI 跟 GUI 的歷史糾葛。圖形化介面讓電腦普及,卻沒能消滅命令列,因為 CLI 能做到 GUI 根本做不到的事。AI 時代來了,LLM 讀文字比看圖快,工具可以串接組合,操作可以被記錄重播,這些正是 CLI 的天然優勢。一人公司的你不需要背指令,你需
人類習慣使用的電腦作業方式,已經開始產生了革命。
這場生產力革命帶來的衝擊,將會前所未見的劇烈,因此我建議你可以試著開始改變你的工作型態。
至於怎麼改變,則要從終端機開始說起。
就算不是工程師,只要你稍稍關注 AI 相關新聞,你一定會聽到大家在瘋「龍蝦(OpenClaw)」或者 Claude Code 等超強的 AI 生產力工具。
這些 AI 生產力工具可以徹底解放你的雙手。只要你能夠妥善地安排你的工作流,你可以讓 AI 做掉很多繁複的細節。
可是當你在 YouTube 上看了一些影片,想嘗試去使用這些工具的時候,卻發現有許多步驟都要使用黑黑的終端機畫面,感覺就像是工程師在做的事情。
其實你只要稍微改變一下心態,並且全然地接受將 AI 代理作為你工作的核心,使用終端機介面不應該是你的障礙。
這裡說的黑黑的終端機,是一種稱作 CLI(Command Line Interface,命令列介面)的操作方式,跟我們習慣的圖形化介面(GUI,Graphical User Interface)不同。
使用者如果要自行操作終端機的話,必須要先記住很多的指令,不像是圖形化介面相對來說比較直覺。
例如我在臺北某家科學機構從事系統維運的工作,我每天的工作就是登入 Linux 系統去操作 CLI 介面,我必須要先記住很多的 Linux 指令。
然而 AI 時代來了,你根本不需要記住這麼多的指令。你只要知道你要做什麼,讓 AI 來幫你執行這些指令。
因此,為了因應 AI 代理(AI Agents),有許多公司也推出了 CLI 介面。例如:
Google Workspace:2026 年 3 月 5 日由 Addy Osmani 宣布
gwsCLI。Obsidian :在 1.12 版本中推出了官方 CLI。
Stripe :2026 年 3 月 27 日推出 Projects CLI。
Polymarket :明確為 AI agent 可存取性建 CLI 。
為什麼會這樣?
因為這些 AI 工具背後的技術是使用大型語言模型。它們在閱讀文字的速度,會比使用圖形化介面還要快很多。
所以可以想見,在未來 5 到 10 年,我們人類會透過自然語言跟 AI 溝通,而 AI 則透過 CLI 介面,去跟各種軟體、程式相互溝通。
當然,圖形化介面是不會消失的,因為我們人類需要透過圖形化介面來與電腦共同協作;但是 CLI 介面也會因應此次 AI Agent 的浪潮而復甦。
典範開始轉移了,這又是從哪裡開始的?
CLI 命令列介面和 GUI 圖形化介面的糾葛
1960 年代電腦還沒有「介面」。
早期都是研究員用紙筆寫程式,再把程式打成打孔卡,交給機房,排隊等幾小時拿結果。
當然這樣子做非常麻煩,後來就有 IBM 的分時系統,可以讓多人透過 CLI 介面使用電腦主機。
然後在 1969 年貝爾實驗室,Ken Thompson 跟 Dennis Ritchie 寫出了 Unix 系統,奠定了日後大家使用終端機的基礎。
可是使用 Unix 系統必須要用 CLI 介面,你必須要記住很多的指令。例如:ls 是列出資料夾內容、cd 是切換目錄、rm -rf 是刪除檔案、chmod 755 是修改權限。每一個操作都要記住對應的英文縮寫,沒有圖示、沒有按鈕,打錯了只會報錯。
GUI 圖形化介面的發展晚了一些。
Xerox PARC 的 Alan Kay 在 1973 年做出有滑鼠、視窗、點陣螢幕的 Alto 電腦,不過此時都還只是實驗性質。
後來 Steve Jobs 去 Xerox 參觀時驚為天人,回去後改變了蘋果電腦的發展方向,在 1984 年推出了麥金塔電腦(Macintosh)。
隔年微軟的 Bill Gates 推出了 Windows 1.0,市場反應不太好,一直要到 Windows 3.0 才開始流行,1995 年的 Windows 95 則普及到家家戶戶。
GUI 為什麼勝出?說穿了就一件事:要把電腦賣給不懂指令的人。
況且人類大腦本來就比較善於處理視覺資訊,再搭上 Apple 跟微軟的行銷預算,「電腦」這個詞在一般人心裡幾乎和「視窗、滑鼠」畫上了等號。
可是 GUI 的便利是有代價的,它把使用者鎖在設計者預想的操作範圍裡。
GUI 的設計邏輯是:把最常用的操作做成按鈕。
問題是,設計者沒辦法預想到每個人的需求。你想把一千個檔案依照規則批次改名,GUI 沒有這個按鈕;你想把三個工具的輸出串在一起、自動跑完一套流程,GUI 做不到。
CLI 的邏輯則相反。它不試圖預想你要做什麼,它只給你積木,讓你自己組合。
Unix 的管線(pipe)符號 | 就是這個哲學的體現:你可以把任意兩個工具的輸入輸出串在一起,拼出 GUI 根本沒辦法提供的功能。
更關鍵的是可重複性。
CLI 指令可以被存成腳本,今天跑、明天跑、交給別人跑,結果都一樣。你可以把它放進版本控制系統,追蹤每次的變化。
GUI 的操作則是一次性的,你點了什麼、怎麼點的,沒有記錄,沒辦法重播,也沒辦法自動化。
這就是為什麼即使有 GUI 可用,還是有人會用 CLI(尤其是工程師)。不是因為他們喜歡跟自己過不去,單純就是比較好用而已。
這個分工維持了幾十年,直到 AI 出現,才讓 CLI 突然從後台配角變成主角。
AI 來了,CLI 再度復甦
LLM (大型語言模型)是新的介面層。
人類透過自然語言跟 LLM 說話,LLM 在背後透過 CLI 操作電腦。
介面典範正在轉移,CLI 的使用者不再是人類,而是 AI 代理。
首先,文字是 LLM 的原生語言,叫 LLM 看像素、辨識滑鼠游標、理解下拉選單,它做得到,但又慢又不穩,而且還很浪費 Token(可視為 AI 額度)。
一個 CLI 工具就是一個現成的 function call,有明確輸入、穩定輸出、可預期的退出碼。
AI 代理要串三個工具完成一件事,CLI 幾乎是現成的積木。
況且,當 CLI 回覆 JSON、TSV、純文字,LLM 解析準確率接近百分之百。
如果用圖形化介面,要靠截圖 + 視覺辨識,每次網站改版還得重新訓練。
Andrej Karpathy(前 OpenAI 共同創辦人)在今年 2 月在 X 上發布一則貼文說,
CLI 之所以令人興奮,正因為它是「遺產技術」。這意味著 AI 代理可以原生且輕鬆地使用它們、組合它們,並透過整套終端機工具鏈與它們互動。例如,你可以叫你的 Claude/Codex 代理去安裝這個新的 Polymarket CLI。
OpenCLI:把任何網站變成 AI 的命令列
在文章的最後,讓我為你介紹一個開源專案:OpenCLI。
OpenCLI 是 GitHub 上一個叫 jackwener 的開發者發起的開源專案,口號是「Make any website your CLI」,讓任何網站變成你的 CLI。
你可以讓 AI 代理能透過 CLI 去操作那些原本只有 GUI 的網站。
OpenCLI 利用你已經在 Chrome 裡登入的狀態(session),讓 AI 代理能跟動態網站互動,而且不需要你交出帳密。
當然,你必須要非常小心地使用這類的工具。
因為既然它不需要你交出任何的帳密,那就代表說,如果有駭客挾持了你的工具,他也可以登入你原先要使用帳密才能登入的網站。
目前 OpenCLI 內建的網站命令涵蓋十七個站、超過三十五個指令,從 Bilibili、知乎、小紅書、微博、Twitter、Reddit、GitHub、Hacker News、到 YouTube、Yahoo Finance、Reuters 都在列。輸出支援 table、JSON、Markdown、CSV,全部都是 Unix 哲學的標準動作。
更酷的是它有 explore、synthesize、cascade 三個給 AI 用的命令:你給它一個 URL 加一個目標,它能自己去探索網站的 API、生成 adapter、試探認證策略。換句話說,它能自己長出新的 CLI。
你現在不用去學 OpenCLI 的任何一個命令。
我只需要知道 OpenCLI 存在、大概能做什麼、有哪些指令。剩下的交給 Claude Code 或 Codex CLI 去查、去裝、去組合。AI 代理會讀 OpenCLI 的文件、會試、會在失敗時自己修正。
這是一個新的時代:你不再需要知道 Know-how,你只需要知道 Know-what。
你必須訓練你自己能夠看到整個架構的輪廓,而不是盯著小細節鑽研。
工商時間
想要把 AI 代理真正用在工作跟事業上,而不是只停在「試試 ChatGPT」?我的社畜進化論|Raven AI 社群專門拆解 AI 一人公司的實戰流程,從選工具到打造自動化系統,有完整的路徑圖跟可以直接用的腳本。



