首頁 | Finetune

基於多模態模型微調技術與白血球影像分類之研究

Study on Fine-Tuning Multimodal Models for White Blood Cell Image Classification

公司代號：ZI2

實習公司：元智大學資訊管理學系

指導教授：謝瑞建副教授

姓名：邱芯彤、黃彥婷

學號：1111635、1112206

開始

研究介紹

本研究旨在提升大型語言模型於白血球影像判讀的應用效能，以支援醫療資源不足地區的輔助診斷。結合多模態視覺語言模型LLaMA 3.2 Vision與Unsloth架構，透過LoRA輕量化微調與4-bit量化技術，強化模型的影像分類與文字生成能力。

研究背景

隨著生成式AI、影像辨識等技術快速發展，大型語言模型（LLMs）如ChatGPT在自然語言處理領域展現強大潛力，廣泛應用於各行各業。然而，這些模型在面對需專業知識的領域仍存在理解不足的問題，特別是在醫學診斷上易出現內容錯誤，限制其應用深度。

關於心得

我們的工作內容包括收集數據、分析白血球分類的方法，以及研究結果的呈現。同時，我們還分享每位成員的心得和經驗，讓您更深入了解我們的專題報告過程。

了解更多

研究相關技術

LLM 與 Transformer

大型語言模型（LLMs）已成為人工智慧的核心技術，廣泛應用於文本生成、翻譯、問答與摘要等任務，其成功關鍵在於Transformer架構。Transformer採用注意力機制，取代傳統RNN，透過編碼器與解碼器結構處理序列任務。其自注意力機制允許模型同時考量句中所有詞語的關聯性，搭配多頭注意力、前饋神經網路與位置編碼，有效提升語意理解與學習效果。加上殘差連接與層正規化，使模型更穩定、高效。

Pytorch

在實際應用中，Transformer模型的訓練與部署仰賴高效的深度學習框架，其中PyTorch是最常用的平台之一。由Meta開發的PyTorch具備動態計算圖、高度模組化及與Python的緊密整合，提供靈活的模型建構與強大的GPU加速能力，特別適合原型設計與研究應用。其特性使其成為BERT、GPT、LLaMA等主流大型語言模型的核心開發工具，也是推動LLMs發展的重要基礎。

多模態模型
(Multi-Modal)

隨著大型語言模型在文本處理上的突破，研究逐漸延伸至多模態學習，旨在整合文字、影像、音訊等多種感知資料，提升模型的理解與推理能力。此類模型強化了AI在複雜任務中的適應性，並拓展至圖文生成、語音辨識與醫學影像診斷等跨領域應用。

量化與 Unsloth

現代大型語言模型如LLaMA 3.2 Vision擁有數十億參數，對硬體資源要求高，不利一般使用者進行微調。為降低計算成本，模型量化成為關鍵技術，透過將32位元浮點數轉為低位元表示（如INT8、4-bit），可顯著減少記憶體用量並加速運算，同時維持良好精度。

常見量化方法包含訓練後量化（PTQ）與量化感知訓練（QAT），前者部署快速，後者精度較高。Unsloth是一個高效的開源框架，結合QLoRA等技術，支援低位元量化與低資源環境下的大模型微調，提升效能並降低硬體門檻。

微調 (Finetune)

雖然大型語言模型具備強大能力，但因預訓練資料以通用性為主，面對醫療、法律等專業領域時常缺乏準確性。為提升專業應用表現，常透過微調技術使模型適應特定語境。傳統全參數微調需更新所有權重，成本高昂，因此參數高效微調（PEFT）成為主流。

LoRA、Adapter

PEFT方法僅更新少量參數，節省資源同時維持效能。LoRA透過低秩分解僅訓練小模組，原始權重保持凍結，大幅降低記憶體與運算需求。另一方法Adapter則在Transformer層間插入小型網路模組，同樣僅調整新增部分，廣泛應用於多語言與多領域微調。

研究結果

白血球分類混淆矩陣

本研究成功應用LLaMA 3.2 Vision 11B模型於白血球影像分析，並透過LoRA進行高效微調，有效降低資源需求，僅訓練三輪即將損失值降至0.02，展現良好收斂與學習效率，而模型分類準確率達0.99，六類白血球皆有穩定高效表現，具實際應用潛力。

更多資訊

​研究介紹