Gemma 4 QAT models: Optimizing model compression for mobile and laptop efficiency | Spyke

localllama·LocalLLaMAbypotatoguy

Gemma 4 QAT models: Optimizing model compression for mobile and laptop efficiency

We’re releasing Gemma 4 quantization-aware training checkpoints, reducing memory requirements and improving on-device performance.

Q4_0 and mobile

RTX 3050 with 16gb of RAM and up now seem to be very usable, mainly with unsloths 26B A4B.

Gemma 4 QAT models: Optimizing model compression for mobile and laptop efficiency

https://blog.google/innovation-and-ai/technology/developers-tools/quantization-aware-training-gemma-4/Open link View original on mbin.potato-guy.space

18

No comments on the original post yet.

Gemma 4 QAT models: Optimizing model compression for mobile and laptop efficiency | Spyke