top of page

基於多模態模型微調技術與白血球影像分類之研究

Study on Fine-Tuning Multimodal Models for  White Blood Cell Image Classification 

公司代號:ZI2 

實習公司:元智大學資訊管理學系 

指導教授:謝瑞建 副教授 

姓名:邱芯彤、黃彥婷 

學號:1111635、1112206 

73917.jpg

​研究介紹

本研究旨在提升大型語言模型於白血球影像判讀的應用效能,以支援醫療資源不足地區的輔助診斷。結合多模態視覺語言模型LLaMA 3.2 Vision與Unsloth架構,透過LoRA輕量化微調與4-bit量化技術,強化模型的影像分類與文字生成能力。

研究背景

隨著生成式AI、影像辨識等技術快速發展,大型語言模型(LLMs)如ChatGPT在自然語言處理領域展現強大潛力,廣泛應用於各行各業。然而,這些模型在面對需專業知識的領域仍存在理解不足的問題,特別是在醫學診斷上易出現內容錯誤,限制其應用深度。

關於心得

我們的工作內容包括收集數據、分析白血球分類的方法,以及研究結果的呈現。同時,我們還分享每位成員的心得和經驗,讓您更深入了解我們的專題報告過程。

​研究相關技術

LLM 與 Transformer 

大型語言模型(LLMs)已成為人工智慧的核心技術,廣泛應用於文本生成、翻譯、問答與摘要等任務,其成功關鍵在於Transformer架構。Transformer採用注意力機制,取代傳統RNN,透過編碼器與解碼器結構處理序列任務。其自注意力機制允許模型同時考量句中所有詞語的關聯性,搭配多頭注意力、前饋神經網路與位置編碼,有效提升語意理解與學習效果。加上殘差連接與層正規化,使模型更穩定、高效。

Pytorch

在實際應用中,Transformer模型的訓練與部署仰賴高效的深度學習框架,其中PyTorch是最常用的平台之一。由Meta開發的PyTorch具備動態計算圖、高度模組化及與Python的緊密整合,提供靈活的模型建構與強大的GPU加速能力,特別適合原型設計與研究應用。其特性使其成為BERT、GPT、LLaMA等主流大型語言模型的核心開發工具,也是推動LLMs發展的重要基礎。

多模態模型
(Multi-Modal) 

隨著大型語言模型在文本處理上的突破,研究逐漸延伸至多模態學習,旨在整合文字、影像、音訊等多種感知資料,提升模型的理解與推理能力。此類模型強化了AI在複雜任務中的適應性,並拓展至圖文生成、語音辨識與醫學影像診斷等跨領域應用。

量化與 Unsloth

現代大型語言模型如LLaMA 3.2 Vision擁有數十億參數,對硬體資源要求高,不利一般使用者進行微調。為降低計算成本,模型量化成為關鍵技術,透過將32位元浮點數轉為低位元表示(如INT8、4-bit),可顯著減少記憶體用量並加速運算,同時維持良好精度。

常見量化方法包含訓練後量化(PTQ)與量化感知訓練(QAT),前者部署快速,後者精度較高。Unsloth是一個高效的開源框架,結合QLoRA等技術,支援低位元量化與低資源環境下的大模型微調,提升效能並降低硬體門檻。

微調 (Finetune)

雖然大型語言模型具備強大能力,但因預訓練資料以通用性為主,面對醫療、法律等專業領域時常缺乏準確性。為提升專業應用表現,常透過微調技術使模型適應特定語境。傳統全參數微調需更新所有權重,成本高昂,因此參數高效微調(PEFT)成為主流。

LoRA、Adapter 

PEFT方法僅更新少量參數,節省資源同時維持效能。LoRA透過低秩分解僅訓練小模組,原始權重保持凍結,大幅降低記憶體與運算需求。另一方法Adapter則在Transformer層間插入小型網路模組,同樣僅調整新增部分,廣泛應用於多語言與多領域微調。

研究結果

白血球分類混淆矩陣

confusion_matrix.png

本研究成功應用LLaMA 3.2 Vision 11B模型於白血球影像分析,並透過LoRA進行高效微調,有效降低資源需求,僅訓練三輪即將損失值降至0.02,展現良好收斂與學習效率,而模型分類準確率達0.99,六類白血球皆有穩定高效表現,具實際應用潛力。

No. 135, Yuandong Rd., Zhongli Dist., Taoyuan City 32003, Taiwan (R.O.C.)

 

© 2025 by 元智大學資管系 學術類畢業專題頂石課程(一) 期末報告. Powered and secured by Wix 

 

基於多模態模型微調技術與白血球影像分類之研究

bottom of page