改變我研究工作流程的開源工具
研究的瓶頸往往不是想法,而是工具。過去幾年,我組建了一套顯著改善工作流程的開源工具。這些工具在各自的社群中大多頗為知名,但我發現許多研究者,尤其是生物領域的,並不熟悉。以下是我最常使用的幾個。
Scanpy:Python 中的單細胞與空間分析
如果你處理單細胞或空間轉錄體數據,Scanpy 不可或缺。它提供從原始計數矩陣到聚類、軌跡分析、視覺化的完整管線,全部在 Python 中完成。它使用的 AnnData 格式已成為儲存標註表現數據的事實標準。我每天都用它做預處理、品質控制和探索性分析。
重要性: 它用單一、文件齊全、可 GPU 加速的框架,取代了過去由零散 R 套件和自訂腳本組成的碎片化工作流程。
Weights & Biases:實驗追蹤
訓練深度學習模型涉及上百次不同超參數、架構和資料分割的實驗。Weights & Biases(wandb)自動追蹤這一切。每次訓練都會把設定、指標和產出記錄到中央儀表板。幾個月後,我能精確查到是哪些設定產生了某個特定結果。
重要性: 可重現性。沒有系統化的實驗追蹤,幾乎不可能還原為什麼某個模型比另一個表現好。
Zotero:文獻管理
Zotero 是免費的開源文獻管理工具,能儲存論文、擷取 metadata、並以任何格式生成引用。配合瀏覽器擴充套件,儲存一篇論文只需一鍵。我按專案組織論文,並用標籤分類主題。Zotero 匯出 Markdown 的工作流程也能順暢整合我的筆記系統。
重要性: 一個無法有效率地查找和引用文獻的研究者,每週都在浪費數小時。
Quarto:可重現的文件
Quarto 是 R Markdown 的繼任者,但同時支援 Python、Julia 和 Observable JS。我用它撰寫交織程式碼、圖表和敘述文字的分析報告。輸出可以是 HTML、PDF,甚至簡報。當審稿人問「Figure 3 是怎麼產生的?」,答案就在文件本身。
重要性: 它填補了分析與溝通之間的落差,讓結果天生就是可重現的。
Ollama:本地 LLM 推論
多虧量化和高效推論引擎,在本地端運行大型語言模型已變得可行。Ollama 讓拉取和運行 Llama、Mistral 或 Phi 等模型變得極其簡單。我用它做文獻摘要、程式碼生成和腦力激盪,完全不需要將數據傳送到外部 API。
重要性: 資料隱私在生醫研究中至關重要。本地推論意味著敏感資料永遠不會離開你的電腦。
共同點
這些工具的共通之處是降低摩擦力。它們把過去需要手動操作、機構授權或商業軟體的任務,變得可及、可重現且免費。最好的工具是你真正會持續使用的工具,而開源工具在這個指標上勝出,因為採用的門檻為零。