EP-30｜要開始不擅長的研究，先使用 Obsidian 的第三方套件 Smart Composer，建立本地端 AI 知識庫

傳統寫紙本或數位筆記的方法，經常製造出大量不再回顧的垃圾。有了 AI ，我們可以在本地端建立 AI 知識庫，即使你不回顧資料，也可以依靠 AI 幫你做這件事。本期電子報介紹 Obsidian 的第三方套件：Smart Composer。

Raven

May 27, 2025

從本期開始，週二會固定出圖文版的電子報，週五會上傳電腦操作影片。

因此未來在文字方面，不會在操作部分有太多著墨，有需要就自己看影片吧。

傳統知識管理的方式，經常造就垃圾

在上一期電子報，我提到我決定下載 Obsidian 到電腦中，建立 AI 知識庫。

可是什麼是 AI 知識庫？

傳統上我們唸書做筆記，在我老師那輩，都是拿筆寫在筆記本上，比較有結構的就做卡片。

例如以前念歷史系時，至少超過兩個老師鼓勵我們做紙本卡片。

已故的大師李敖，則是買書都買兩本，遇到有關的資訊，就直接剪下來，貼在筆記本上。如果背面也有他要的內容，剛好買了兩本書，就一樣也剪下貼上。

這樣的作法，其實也算是一種卡片筆記。

當然在數位時代不必做這件事，首先打字也比寫筆記快，再不然拍照上傳也很方便。

誰有空在那邊寫小卡片啊！

可是實體筆記也是有優點的，因為你看得到它啊，筆記本會佔據在你的抽屜、書櫃某個角落。所以你比較有可能會拿起來翻翻，恢復記憶。

而且手寫筆記，才記得牢，我當初考高考時，也是手寫了一大堆筆記與卡片。

但是，除非是為了考試，否則我還真的懶得手寫，大部分情況都是數位筆記。

偏偏數位筆記就像是你隨手拍下的照片，你沒事不太會回顧。

這十幾年來，我收集了大量的數位筆記，有自己寫的，也有網路複製的。但是某個有智慧的人說過，收藏永不停止，實踐永不開始。

沒有再回顧的筆記，就只是數位垃圾。

生成式 AI 出現後，數位筆記成為黃金

生成式 AI ，或者常聽到的大型語言模型，已經由 OpenAI、Google、Anthropic、xAI、Deepseek 等大公司，輸入了大量的公開知識。

語言模型不只是讀過很多書，它的語言能力還很強，精通全世界各種語言，連已經消失的語言它都懂。

相信閱讀本電子報的人，早就體驗過大型語言模型的威力！

可是大家都可以用 AI ，要怎麼做出個人差異？

我認為答案就是你多年累積的數位筆記。

知識可以分為外顯知識(Explicit Knowledge)，以及內隱知識(tacit knowledge)，語言模型懂得的知識，是被人們訴諸於文字的外顯知識。

但是有更多知識，其實是不為人所知的，例如公司內部的資訊、工作流程，甚至是一些只有人類才能理解，卻沒有書寫成文字的知識。

我們的筆記，雖然已被書寫下來，也算是外顯知識，但是一來從未被科技公司拿來訓練 AI ，再者，當我們在做筆記時，透過挑選、摘要、轉譯，以及心得感想，都已經把我們的個性添加上去，這正是我們與 AI 的不同之處。

雖然我們太懶了，沒有好好利用數位筆記，可是生成式 AI 的出現帶來的新的契機！

要建立 AI 知識庫，你得認識 RAG

RAG，全名是 Retrieval-Augmented Generation（檢索增強生成），是一種結合 AI 和個人知識庫的技術。簡單來說，就像是給 AI 一個專屬於你的小抄。

想像一下，如果你要問 ChatGPT 一個問題，它會從它訓練時學到的知識回答你。但是透過 RAG 技術，AI 會先從你的筆記庫中找出相關資料，再用這些資料來產生回答。

舉個例子：

一般的 AI 像是一個博學的教授，知道很多公開的知識
使用 RAG 後的 AI，就像是一個不只懂得課本知識，還讀過你所有筆記的助教。

採用 RAG 技術，讓 AI 能夠辦到，

回答你特定領域的專業問題
參考你的經驗和觀點
連結你過去做過的研究和心得

這就是為什麼我們要把數位筆記變成 AI 知識庫，讓它成為 AI 的參考資料，產生更有價值的對話。

Obsidian 第三方套件：Smart Composer

底下內容另有電腦操作影片講解，將在週五發佈。

Smart Composer 是 Obsidian 的一個強大第三方插件，能把你的 Obsidian 變成一個 AI 輔助寫作工具。它類似於 Cursor 和 Windsurf 這些 AI 程式編輯器，但 Smart Composer 專注於一般文字寫作，並結合了 RAG（檢索增強生成）技術，能夠把文字檔案轉為向量資料庫，讓語言模型搜尋。

主要特色：

整合多個 AI 模型：可以同時使用 OpenAI、Google 等不同的 AI 服務
RAG 功能：能夠從你的筆記庫中檢索相關內容，讓 AI 產生更有脈絡的回應
智慧編輯：提供即時寫作建議、自動補全、重寫等功能

使用 Smart Composer，你可以進行：

讓 AI 協助改進文章結構
快速總結、擴充現有筆記
基於個人知識庫生成新內容
進行智慧化的文本編輯和優化

Smart Composer 內，可能讓人疑惑的設定

Max auto tool requests
允許 Smart Composer 在「同一次指令」裡自動連續呼叫多少個 AI 工具（tool）。
- 每一次 tool 呼叫都會送一次 API 請求；超過你設定的上限，外掛就會停下來，要求你手動確認才會再往下執行。
- 原始設定為 1 ，就是指你只能呼叫 1 次，我目前設定為 5 次。例如它可能 1. 在整個 Vault 搜索 → 2. 生成回答 → 3. 套用。
Include patterns
Include patterns 用來指定要納入 RAG 索引的檔案路徑，採用 glob 語法（類似 shell 通配符）：
- * ：匹配單層任意字串
- **：匹配多層任意字串
- ?：匹配單一字元
底下是範例：
1. 全站 Markdown → 索引所有子資料夾下的 .md 檔

**/*.md

僅限 notes 資料夾 → 索引 notes/ 底下所有子資料夾的 Markdown

notes/**/*.md

多個資料夾 → 同時索引 research 和 projects 底下的檔案

research/**/*.md
projects/**/*.md

Exclude patterns
用來指定不要納入 RAG 索引的檔案或資料夾，同樣採用 glob 語法（shell 通配符），每行一個模式。底下是範例：
1. 排除模板檔案 → 不索引 templates 資料夾及其子檔案

templates/**

排除草稿或未完成筆記 → 不索引 draft 資料夾下所有 Markdown

draft/**/*.md

排除附件／圖檔 → 不索引 attachments 資料夾，也排除所有 .png、.jpg

attachments/**
*.png
*.jpg

排除特定前綴檔案 → 排除所有檔名前綴為底線的檔案

_*

Chunk size
- 功能：將單一檔案文字拆分成多個「區塊」（chunk）做 embedding。

Embedding 是一種將文字轉換成數值向量的技術，讓 AI 能夠「理解」文字之間的關聯性。
這個技術把每個文字區塊轉換成一串數字，代表了文字的「意義」。當兩段文字的意思相近時，它們的數字也會很接近。這讓 AI 能快速找出相關的內容。

- 設定原則：chunk size 決定了每次要轉換多少文字成一個向量，這會影響搜尋的精確度和效能。越大區塊可保留更多上下文，但是比較佔記憶體；越小有助於精準檢索，但是會增加區塊數量與索引時間。
- 建議：我是先用 1000。
Threshold tokens
- 功能：對話時，AI 會讀取你的檔案來判斷，可是如果讀取了太多文字，超過閥值（Threshold），Smart Composer 會自動切換到 RAG 模式，只取相關區塊。
- 設定原則：
  - 若你的 Vault 筆記量，常常超過模型上下文容量（如 4096 token），建議把閥值的 tokens 降低到 3,000–3,500 左右，避免全文塞滿後回覆效率變差；
  - 反之，如果筆記較少、常用內容都能在一次送入，閥值可設接近模型上限，以減少不必要的檢索步驟。
- 建議：以 Chat Model 為基礎，例如我設定成 Gemini 2.0 Flash，它的上下文長度有 100萬 tokens，超大！但是那是物理上限，實際上不能拉到這麼大，所以我先保守一點，設定個 16,000 tokens。
Minimum similarity
- 功能：RAG 檢索結果的最低相似度分數門檻（通常介於 0.0–1.0）。

Minimum similarity（最低相似度） 簡單說，就是設定「要多像」才算相關

- 設定原則：如果把每段文字想像成一張照片，向量資料庫就是在大量照片裡找「類似」的。就像你跟資料庫說：「只要跟我這張照片相似度超過多少，就拿給我看。」
  - 設高一點（e.g. 0.5），只會拿最像的照片；
  - 設低一點（e.g. 0.2），會多拿一些看起來有點像的，也可能比較雜。
- 建議：0.3
Limit
- 功能：每次 RAG 檢索結果要納入 prompt 的最多區塊數，就像你請助理從一堆筆記中挑出幾段送到模型裡。
- 設定原則：數量越多，提供較完整背景，但佔用更多 token；數量越少，速度較快且費用較低，但可能缺少足夠上下文。
Manage Embedding Database
上述這些設定，設定後需要重新執行「Rebuild entire vault index」才能生效。

在這些設定中，還有一個是 MCP Server ，但是這屬於比較進階的作法，需要許多手動操作，留待之後我徹底研究後，再來討論。

常見問答

Obsidian 適用什麼情境？

Obsidian 就是類似我們以前手寫卡片筆記一樣，適合寫閱讀、研究筆記。方便你快速建立卡片，透過 hashtag、關連圖，將卡片彼此建立連結。強化你的記憶，也能訓練你的第一大腦。

Obsidian 與 Notion 有什麼差異？

Obsidian 和 Notion 各有特色，適合不同的使用情境：

Obsidian 適合

個人知識管理：所有資料都存在本地端，適合建立私人知識庫
重視隱私：不需要網路連線，資料完全自主掌控
學術研究：雙向連結功能，適合建立複雜的知識網絡

Notion 適合

團隊協作：即時同步、權限管理、評論功能都很完善
專案管理：內建資料庫功能，可以建立任務看板、行事曆等
內容發布：容易製作美觀的頁面，適合寫部落格或建立知識庫

簡單選擇 👉🏼

個人知識管理，選 Obsidian；
需要團隊協作或是建立結構化的資料，選擇 Notion 。 </aside>

哪一款大型語言模型適合用在建立 AI 知識庫

選擇大型語言模型時，不一定要選最強大的，而是要根據需求選擇最適合的：

Chat 模型選擇

可以選一些比較聰明的，以保證對話互動的流暢度與語意深度，例如 Gemini 2.0 Flash，甚至以上的模型

Apply 模型建議

建議用較經濟的模型（如 gpt-3.5-turbo），以提升自動套用、批次處理的速度並節省資源。這裡我也是用 Gemini 2.0 Flash

Embedding 模型選擇

基礎選項：OpenAI 的 text-embedding-3-small，成本較低但效能足夠
進階選項：OpenAI 的 text-embedding-3-large，適合需要高精確度的專業領域

Obsidian要收費嗎？它的外掛要錢嗎？

Obsidian 如果是離線使用完全不用錢，除非你有特別需求，需要在手機、筆電、桌電等不同設備連線使用，那你可能可以考慮Obsidian 的同步方案，每月最低收費 4 美金。

外掛方面，只要使用API的都必須付費，但是目前 Gemini 提供入門三個月，免費 9,000 元台幣額度的方案。或者使用字節跳動開發的 AI 程式編輯器 Trae ，也不用錢。

幫 Raven 買包鳥食

Discussion about this post

Ready for more?