Lượng tử hóa mô hình AI – Phần 2 Dynamic 4‑bit Quantization với Unsloth
Tiếp nối Phần 1 (giới thiệu Nunchaku & SVDQuant), bài viết này tập trung vào Unsloth Dynamic 4‑bit Quantization – kỹ thuật chọn lọc khối để nén mô hình xuống 4 bit nhưng vẫn giữ độ chính xác gần 16 bit, giảm tới 70 % VRAM và tăng tốc gấp 2×.