研究介紹
本研究旨在提升大型語言模型於白血球影像判讀的應用效能,以支援醫療資源不足地區的輔助診斷。結合多模態視覺語言模型LLaMA 3.2 Vision與Unsloth架構,透過LoRA輕量化微調與4-bit量化技術,強化模型的影像分類與文字生成能力。
研究相關技術
LLM 與 Transformer
大型語言模型(LLMs)已成為人工智慧的核心技術,廣泛應用於文本生成、翻譯、問答與摘要等任務,其成功關鍵在於Transformer架構。Transformer採用注意力機制,取代傳統RNN,透過編碼器與解碼器結構處理序列任務。其自注意力機制允許模型同時考量句中所有詞語的關聯性,搭配多頭注意力、前饋神經網路與位置編碼,有效提升語意理解與學習效果。加上殘差連接與層正規化,使模型更穩定、高效。
Pytorch
在實際應用中,Transformer模型的訓練與部署仰賴高效的深度學習框架,其中PyTorch是最常用的平台之一。由Meta開發的PyTorch具備動態計算圖、高度模組化及與Python的緊密整合,提供靈活的模型建構與強大的GPU加速能力,特別適合原型設計與研究應用。其特性使其成為BERT、GPT、LLaMA等主流大型語言模型的核心開發工具,也是推動LLMs發展的重要基礎。
多模態模型
(Multi-Modal)
隨著大型語言模型在文本處理上的突破,研究逐漸延伸至多模態學習,旨在整合文字、影像、音訊等多種感知資料,提升模型的理解與推理能力。此類模型強化了AI在複雜任務中的適應性,並拓展至圖文生成、語音辨識與醫學影像診斷等跨領域應用。
量化與 Unsloth
現代大型語言模型如LLaMA 3.2 Vision擁有數十億參數,對硬體資源要求高,不利一般使用者進行微調。為降低計算成本,模型量化成為關鍵技術,透過將32位元浮點數轉為低位元表示(如INT8、4-bit),可顯著減少記憶體用量並加速運算,同時維持良好精度。
常見量化方法包含訓練後量化(PTQ)與量化感知訓練(QAT),前者部署快速,後者精度較高。Unsloth是一個高效的開源框架,結合QLoRA等技術,支援低位元量化與低資源環境下的大模型微調,提升效能並降低硬體門檻。
微調 (Finetune)
雖然大型語言模型具備強大能力,但因預訓練資料以通用性為主,面對醫療、法律等專業領域時常缺乏準確性。為提升專業應用表現,常透過微調技術使模型適應特定語境。傳統全參數微調需更新所有權重,成本高昂,因此參數高效微調(PEFT)成為主流。
LoRA、Adapter
PEFT方法僅更新少量參數,節省資源同時維持效能。LoRA透過低秩分解僅訓練小模組,原始權重保持凍結,大幅降低記憶體與運算需求。另一方法Adapter則在Transformer層間插入小型網路模組,同樣僅調整新增部分,廣泛應用於多語言與多領域微調。
.png)

