一直以來,拍片就是我比較難跨越的領域。
因為我沒有系統性地學習過該如何拍片,也不知道要如何剪輯影片,所以一直在調整方向。
本來我買了 Filmora 來做影片剪輯,它算是市場上相對比較簡單好用的軟體,價格上也不太貴,一年大約花了一千八百多塊。
當然,雖然說它的功能很強大,但就是要花時間去學習。
對於我們這種把經營自媒體當作副業的人來說,平常下班之後要做研究,然後還要拍片,實在沒有辦法撥出更多時間來學習剪片。
可是我發現,可以使用 Claude 當作核心,並結合一些開源工具建立 AI 工作流,讓整個流程都能交由 AI 來完成最繁雜的剪片工作。
全程幾乎沒有任何技術難度。你只要知道怎麼樣下載 Claude Desktop,然後讓它去幫你操作就可以了。
整套 AI 剪片工作流:八步驟拆解
這套流程串了三個開源工具,加上一個 API。
先看角色分工:
ElevenLabs Scribe:把語音轉成有字級時間戳的逐字稿(雲端 API:scribe)
video-use:讀逐字稿、決定剪輯點、輸出剪好的影片(github.com/browser-use/video-use)
Remotion:用 React 寫程式碼產生片頭片尾動畫(github.com/remotion-dev/remotion)
ffmpeg-full:影片合併、字幕燒入(
brew install ffmpeg-full)
video-use 是 browser-use 團隊出的「用 Claude Code 剪片」開源工具。讓 AI 做剪輯、剪贅詞、調色、嵌入字幕,每個剪接點還會自跑一次自我檢查抓跳接和爆音。
Remotion 是「用 React 寫程式碼做動畫影片」的開源框架。它給你一個 frame 編號和一張空白畫布,然後去畫每一幀畫面,最後渲染成 MP4。
ffmpeg-full 是這套流程最後的「組裝工」,負責兩件事:把 cold open、片頭動畫、主體影片、片尾這四段串成一支完整的 mp4;以及把中文字幕嵌進社群短片版本(IG/FB/Threads/Shorts)。
要裝前面三個開源工具,你就直接把 Github 的網址跟 Claude 說,跟它講你要裝這些開源專案,他就會幫你裝好。
但是 ElevenLabs Scribe API 你要自己申請。
ElevenLabs Scribe 是 ElevenLabs 推出的語音轉文字模型,支援 90 多種語言(含中文)。它會回傳字級時間戳和聲音事件標籤(笑聲、停頓),這是後面 video-use 開源專案能精準刪除贅詞的基礎。
價格的話,從每月訂閱費 $6 到 $11 美金,其實也不算太貴。詳情大家可以自己去官網看。
整個流程分八步:
1. 錄影
我用 Filmora 做螢幕錄影,錄完輸出成 mp4 丟到專案目錄。Filmora 在這一步只負責「按下錄影鍵到輸出檔案」這件事。當然也有可能會做一些聲音上的調整,以及稍微加一點素材。
2. 轉錄
video-use 把音訊抽出來送進 ElevenLabs Scribe,回傳 JSON 含每個漢字的起訖時間、speaker_id、音訊事件標籤(笑聲、停頓)。
一支 30 分鐘影片大概花 20 秒、付給 ElevenLabs 0.21 美金。轉錄結果會快取,重剪不會再付一次費用。
3. 繁簡轉換
我發現 Scribe 對台灣中文預設輸出簡體,逐字稿一堆「软件、视频、网络」這類詞。所以讓 Claude 寫了Python 腳本 ,用 OpenCC 的把每個字的 text 欄位掃過一遍。順便把對應的台灣用語替換掉:影片、軟體、網路。
4. 剪贅詞
我自己講話有一堆口頭禪:「呃」「然後」「就是」「這個」「這樣子」。所以也讓 Claude 寫了腳本檢查逐字稿,找這些無歧義的詞跟停頓 > 0.8 秒的長空白,產出 EDL(edit decision list)給 video-use 用。
剪片時前後留 30ms 緩衝避免爆音。
腳本會自動去刪除這些部分,但是某一些內容可能需要由 LLM 來判斷,例如「這個」是贅字,但是「這個禮拜」是指示代名詞要保留。
5. 迭代剪輯
粗剪 v1 之後,可能還想砍某段(例如離題講太久、後來覺得沒必要的片段)。
所以我的流程設計成「內容指認 → 列時間 → 確認 → re-render」這個迴圈:
我:再剪掉「我講 remotion 那段」 Claude:找到了,是 02:15-02:34 這段,逐字稿節錄是「對了講到這個remotion...」,確認剪嗎? 我:確認 Claude:已加進 EDL,重新 render v2
每輪迭代不會重新轉錄,所以不會再花 Scribe 費用。
6. LLM 修字幕
Scribe 產的逐字稿是「字級切」,每個漢字一個 token。直接生成 SRT 會出現「資訊相 → 關的」「純粹手寫 → 程式的」這種斷字。
所以由 Claude 讀完整份 SRT,套用五條規則:
跨行斷字合併:把破掉的詞接回來,重新切在標點處
重複疊字消掉:「你,你決定」→「你決定」、「蠻,蠻難執行」→「蠻難執行」
Scribe 聽錯詞表:「功能師 → 工程師、溫族 → 文組、復雜 → 複雜」
「這個」上下文判斷:後面接名詞(這個禮拜、這個問題)保留,當虛詞拿掉
時間戳鐵律:永遠不動,除非合併重切時按字數比例算 split time
7. Remotion 片頭
用 React 寫程式碼產生 5 秒的「Ravan AI 週報」品牌動畫。Remotion 把 JSX 元件當作影片內容,每幀的位置、淡入淡出、彈跳動畫都用程式碼控制。
另外也會去設計每一個章節過場動畫。因為我一部影片長度大概都在 20 到 30 分鐘左右,所以會有章節的需求,希望能依照章節內容進行分段。
在分段的部分,中間可能會參雜一段大約兩秒的影片過場動畫。
8. ffmpeg 合併+燒字幕
最後 ffmpeg 把四段串起來:
精華片段 (10-20 秒) → 片頭動畫 → 主體影片 → 片尾
精華片段是從主體裡挑一段最有梗的當開頭,目的是抓住前 15 秒留存率(YouTube 演算法看這個)。
字幕用 ffmpeg-full(內建 libass)去嵌入。
下一步:自動剪輯短影音
目前這個流程做到一半,還沒有完全做完。
待辦事項如下:
每一個章節的過場動畫都還沒做
之後還要增加一個功能,能夠將原本的影片剪輯成短影音的版本
目前有一個比較難解決的問題。
因為我每一次拍片其實都是做電腦的螢幕錄影,畫面是橫式的,但短影音的版本必須是直式。
原本的畫面其實沒有辦法直接轉成直式,因為如果將影片轉成直式的,就必須剪裁掉某些部分。
而切掉的部分,要嘛是捨棄我的臉,要嘛是留下我的臉但切掉了操作畫面。
所以這部分還需要思考應該要如何呈現。
我們下禮拜再來研究。
結語
剪輯這件事,過去是我每週的時間黑洞。
光是聽過自己錄的 30 分鐘影片、找出每一個「呃」「然後」「就是」、再一個個剪掉,就要花掉至少 2 個小時。剩下還要修字幕錯字、調順序。
把這些事交給 Claude 之後,我每週實際花在剪片上的時間剩下大概 30 分鐘。多出來的時間,我拿來看動畫也爽。
這套流程是給每週都要產出影片的自媒體創作者。AI 一人公司的核心,是把規則明確、重複高的勞動交給 AI,留下你的時間給「錄什麼、講什麼」這種真正只有你能做的事。
如果你也想把類似的工作流加入你的副業或自媒體裡,歡迎加入我經營的社群「社畜進化論|Raven AI」。
一個人摸索工具會走很多冤枉路,一群人一起做會快很多。
→ 加入連結:社畜進化論|Raven AI



