改變我研究工作流程的開源工具

研究的瓶頸往往不是想法，而是工具。過去幾年，我組建了一套顯著改善工作流程的開源工具。這些工具在各自的社群中大多頗為知名，但我發現許多研究者，尤其是生物領域的，並不熟悉。以下是我最常使用的幾個。

Scanpy：Python 中的單細胞與空間分析

如果你處理單細胞或空間轉錄體數據，Scanpy 不可或缺。它提供從原始計數矩陣到聚類、軌跡分析、視覺化的完整管線，全部在 Python 中完成。它使用的 AnnData 格式已成為儲存標註表現數據的事實標準。我每天都用它做預處理、品質控制和探索性分析。

重要性： 它用單一、文件齊全、可 GPU 加速的框架，取代了過去由零散 R 套件和自訂腳本組成的碎片化工作流程。

訓練深度學習模型涉及上百次不同超參數、架構和資料分割的實驗。Weights & Biases（wandb）自動追蹤這一切。每次訓練都會把設定、指標和產出記錄到中央儀表板。幾個月後，我能精確查到是哪些設定產生了某個特定結果。

重要性： 可重現性。沒有系統化的實驗追蹤，幾乎不可能還原為什麼某個模型比另一個表現好。

Zotero 是免費的開源文獻管理工具，能儲存論文、擷取 metadata、並以任何格式生成引用。配合瀏覽器擴充套件，儲存一篇論文只需一鍵。我按專案組織論文，並用標籤分類主題。Zotero 匯出 Markdown 的工作流程也能順暢整合我的筆記系統。

重要性： 一個無法有效率地查找和引用文獻的研究者，每週都在浪費數小時。

Quarto 是 R Markdown 的繼任者，但同時支援 Python、Julia 和 Observable JS。我用它撰寫交織程式碼、圖表和敘述文字的分析報告。輸出可以是 HTML、PDF，甚至簡報。當審稿人問「Figure 3 是怎麼產生的？」，答案就在文件本身。

重要性： 它填補了分析與溝通之間的落差，讓結果天生就是可重現的。

多虧量化和高效推論引擎，在本地端運行大型語言模型已變得可行。Ollama 讓拉取和運行 Llama、Mistral 或 Phi 等模型變得極其簡單。我用它做文獻摘要、程式碼生成和腦力激盪，完全不需要將數據傳送到外部 API。

重要性： 資料隱私在生醫研究中至關重要。本地推論意味著敏感資料永遠不會離開你的電腦。

這些工具的共通之處是降低摩擦力。它們把過去需要手動操作、機構授權或商業軟體的任務，變得可及、可重現且免費。最好的工具是你真正會持續使用的工具，而開源工具在這個指標上勝出，因為採用的門檻為零。