EP-73｜我做了 AI 工作流，把每週剪片時間從 2 小時壓到 30 分鐘，用了 8 個步驟

Playback speed

Share post at current time

Share from 0:00

0:00

EP-73｜我做了 AI 工作流，把每週剪片時間從 2 小時壓到 30 分鐘，用了 8 個步驟

一套 8 步驟工作流，把 Filmora 換成 Claude + Remotion + ElevenLabs，剪片從 2 小時壓到 30 分鐘

Raven

May 12, 2026

一直以來，拍片就是我比較難跨越的領域。

因為我沒有系統性地學習過該如何拍片，也不知道要如何剪輯影片，所以一直在調整方向。

本來我買了 Filmora 來做影片剪輯，它算是市場上相對比較簡單好用的軟體，價格上也不太貴，一年大約花了一千八百多塊。

當然，雖然說它的功能很強大，但就是要花時間去學習。

對於我們這種把經營自媒體當作副業的人來說，平常下班之後要做研究，然後還要拍片，實在沒有辦法撥出更多時間來學習剪片。

可是我發現，可以使用 Claude 當作核心，並結合一些開源工具建立 AI 工作流，讓整個流程都能交由 AI 來完成最繁雜的剪片工作。

全程幾乎沒有任何技術難度。你只要知道怎麼樣下載 Claude Desktop，然後讓它去幫你操作就可以了。

整套 AI 剪片工作流：八步驟拆解

這套流程串了三個開源工具，加上一個 API。

先看角色分工：

ElevenLabs Scribe：把語音轉成有字級時間戳的逐字稿（雲端 API：scribe）
video-use：讀逐字稿、決定剪輯點、輸出剪好的影片（github.com/browser-use/video-use）
Remotion：用 React 寫程式碼產生片頭片尾動畫（github.com/remotion-dev/remotion）
ffmpeg-full：影片合併、字幕燒入（brew install ffmpeg-full）

video-use 是 browser-use 團隊出的「用 Claude Code 剪片」開源工具。讓 AI 做剪輯、剪贅詞、調色、嵌入字幕，每個剪接點還會自跑一次自我檢查抓跳接和爆音。

Remotion 是「用 React 寫程式碼做動畫影片」的開源框架。它給你一個 frame 編號和一張空白畫布，然後去畫每一幀畫面，最後渲染成 MP4。

ffmpeg-full 是這套流程最後的「組裝工」，負責兩件事：把 cold open、片頭動畫、主體影片、片尾這四段串成一支完整的 mp4；以及把中文字幕嵌進社群短片版本（IG／FB／Threads／Shorts）。

要裝前面三個開源工具，你就直接把 Github 的網址跟 Claude 說，跟它講你要裝這些開源專案，他就會幫你裝好。

但是 ElevenLabs Scribe API 你要自己申請。

ElevenLabs Scribe 是 ElevenLabs 推出的語音轉文字模型，支援 90 多種語言（含中文）。它會回傳字級時間戳和聲音事件標籤（笑聲、停頓），這是後面 video-use 開源專案能精準刪除贅詞的基礎。

價格的話，從每月訂閱費 $6 到 $11 美金，其實也不算太貴。詳情大家可以自己去官網看。

整個流程分八步：

1. 錄影

我用 Filmora 做螢幕錄影，錄完輸出成 mp4 丟到專案目錄。Filmora 在這一步只負責「按下錄影鍵到輸出檔案」這件事。當然也有可能會做一些聲音上的調整，以及稍微加一點素材。

2. 轉錄

video-use 把音訊抽出來送進 ElevenLabs Scribe，回傳 JSON 含每個漢字的起訖時間、speaker_id、音訊事件標籤（笑聲、停頓）。

一支 30 分鐘影片大概花 20 秒、付給 ElevenLabs 0.21 美金。轉錄結果會快取，重剪不會再付一次費用。

3. 繁簡轉換

我發現 Scribe 對台灣中文預設輸出簡體，逐字稿一堆「软件、视频、网络」這類詞。所以讓 Claude 寫了Python 腳本，用 OpenCC 的把每個字的 text 欄位掃過一遍。順便把對應的台灣用語替換掉：影片、軟體、網路。

4. 剪贅詞

我自己講話有一堆口頭禪：「呃」「然後」「就是」「這個」「這樣子」。所以也讓 Claude 寫了腳本檢查逐字稿，找這些無歧義的詞跟停頓 > 0.8 秒的長空白，產出 EDL（edit decision list）給 video-use 用。

剪片時前後留 30ms 緩衝避免爆音。

腳本會自動去刪除這些部分，但是某一些內容可能需要由 LLM 來判斷，例如「這個」是贅字，但是「這個禮拜」是指示代名詞要保留。

5. 迭代剪輯

粗剪 v1 之後，可能還想砍某段（例如離題講太久、後來覺得沒必要的片段）。

所以我的流程設計成「內容指認 → 列時間 → 確認 → re-render」這個迴圈：

我：再剪掉「我講 remotion 那段」 Claude：找到了，是 02:15-02:34 這段，逐字稿節錄是「對了講到這個remotion...」，確認剪嗎？我：確認 Claude：已加進 EDL，重新 render v2

每輪迭代不會重新轉錄，所以不會再花 Scribe 費用。

6. LLM 修字幕

Scribe 產的逐字稿是「字級切」，每個漢字一個 token。直接生成 SRT 會出現「資訊相 → 關的」「純粹手寫 → 程式的」這種斷字。

所以由 Claude 讀完整份 SRT，套用五條規則：

跨行斷字合併：把破掉的詞接回來，重新切在標點處
重複疊字消掉：「你，你決定」→「你決定」、「蠻，蠻難執行」→「蠻難執行」
Scribe 聽錯詞表：「功能師 → 工程師、溫族 → 文組、復雜 → 複雜」
「這個」上下文判斷：後面接名詞（這個禮拜、這個問題）保留，當虛詞拿掉
時間戳鐵律：永遠不動，除非合併重切時按字數比例算 split time

7. Remotion 片頭

用 React 寫程式碼產生 5 秒的「Ravan AI 週報」品牌動畫。Remotion 把 JSX 元件當作影片內容，每幀的位置、淡入淡出、彈跳動畫都用程式碼控制。

另外也會去設計每一個章節過場動畫。因為我一部影片長度大概都在 20 到 30 分鐘左右，所以會有章節的需求，希望能依照章節內容進行分段。

在分段的部分，中間可能會參雜一段大約兩秒的影片過場動畫。

8. ffmpeg 合併＋燒字幕

最後 ffmpeg 把四段串起來：

精華片段 (10-20 秒) → 片頭動畫 → 主體影片 → 片尾

精華片段是從主體裡挑一段最有梗的當開頭，目的是抓住前 15 秒留存率（YouTube 演算法看這個）。

字幕用 ffmpeg-full（內建 libass）去嵌入。

下一步：自動剪輯短影音

目前這個流程做到一半，還沒有完全做完。

待辦事項如下：

每一個章節的過場動畫都還沒做
之後還要增加一個功能，能夠將原本的影片剪輯成短影音的版本

目前有一個比較難解決的問題。

因為我每一次拍片其實都是做電腦的螢幕錄影，畫面是橫式的，但短影音的版本必須是直式。

原本的畫面其實沒有辦法直接轉成直式，因為如果將影片轉成直式的，就必須剪裁掉某些部分。

而切掉的部分，要嘛是捨棄我的臉，要嘛是留下我的臉但切掉了操作畫面。

所以這部分還需要思考應該要如何呈現。

我們下禮拜再來研究。

結語

剪輯這件事，過去是我每週的時間黑洞。

光是聽過自己錄的 30 分鐘影片、找出每一個「呃」「然後」「就是」、再一個個剪掉，就要花掉至少 2 個小時。剩下還要修字幕錯字、調順序。

把這些事交給 Claude 之後，我每週實際花在剪片上的時間剩下大概 30 分鐘。多出來的時間，我拿來看動畫也爽。

這套流程是給每週都要產出影片的自媒體創作者。AI 一人公司的核心，是把規則明確、重複高的勞動交給 AI，留下你的時間給「錄什麼、講什麼」這種真正只有你能做的事。

如果你也想把類似的工作流加入你的副業或自媒體裡，歡迎加入我經營的社群「社畜進化論｜Raven AI」。

一個人摸索工具會走很多冤枉路，一群人一起做會快很多。

→ 加入連結：社畜進化論｜Raven AI

EP-73｜我做了 AI 工作流，把每週剪片時間從 2 小時壓到 30 分鐘，用了 8 個步驟

整套 AI 剪片工作流：八步驟拆解

1. 錄影

2. 轉錄

3. 繁簡轉換

4. 剪贅詞

5. 迭代剪輯

6. LLM 修字幕

7. Remotion 片頭

8. ffmpeg 合併＋燒字幕

下一步：自動剪輯短影音

結語

Discussion about this video

Ready for more?