微調 LLaMa3.2 Vision 11B 模型
在微調過程中,我們調整多模態輸入格式,使模型能有效整合影像與文字,提升醫學影像判讀與語意理解能力。使用LLaMA-3.2-11B-Vision-unsloth-bnb-4bit模型進行訓練。
(1) 設備與參數設定
使用RTX 3060 GPU,透過Unsloth載入支援4-bit量化的模型,並設定LoRA參數進行高效微調,降低資源消耗。
(2) 資料處理
載入含圖片路徑、描述與標籤的CSV檔,將資料轉換為圖文對話格式(SFT訓練需求),並清理損壞資料。
(3) 訓練器設定
使用trl套件的SFTTrainer建立訓練器,設定批次大小、Epochs、學習率等,並搭配Unsloth專用資料整理器與混合精度訓練。
(4) 模型訓練
進行前向與反向傳播、損失計算與權重更新,訓練過程中記錄Loss並儲存最佳模型,後續可視覺化Loss曲線以評估收斂情況。