Co to jest SLM? Small Language Model — mały, ale zdolny

aktualizacja: 19 lut 2026

Soczek Koncentrat

SLM (Small Language Model) to mały model językowy (do ~10B parametrów) — tańszy, szybszy i możliwy do uruchomienia na telefonie lub laptopie.

Nie każde zadanie wymaga modelu z bilionem parametrów. Jeśli potrzebujesz szybkiego podsumowania maila, prostej klasyfikacji tekstu albo asystenta na telefonie — mały model wystarczy. I będzie 100× tańszy.

Co to znaczy "mały"?

W świecie AI "mały" to wciąż miliardy parametrów. SLM-y mają od 1 do ~10 miliardów — w porównaniu z 175B (GPT-3) czy >1T (GPT-4) to rzeczywiście małe. Ale dzięki destylacji i lepszym danym treningowym, dzisiejszy model 3B potrafi więcej niż GPT-3 z 2020.

Przykłady SLM

Phi-3 Mini (3.8B) — Microsoft; zaskakująco dobry na benchmarkach, działa na telefonie
Llama 3.2 (1B / 3B) — Meta; zaprojektowany pod urządzenia mobilne i edge
Gemma 2 (2B) — Google; lekki, badawczy
Mistral 7B — na granicy SLM/LLM; świetny stosunek jakość/koszt
GPT-4o-mini — OpenAI; zamknięty, ale cenowo i wydajnościowo SLM-owy

Kiedy SLM zamiast LLM?

Budżet jest ograniczony — SLM jest 10-50× tańszy per token
Potrzebujesz niskiej latencji — SLM odpowiada w milisekundach
Dane nie mogą opuścić urządzenia — SLM działa lokalnie
Zadanie jest wąskie — klasyfikacja, ekstrakcja, podsumowanie

Często zadawane pytania

Czy SLM zastąpi LLM?

Nie. To komplementarne narzędzia. SLM do prostych, szybkich, tanich zadań. LLM do złożonego rozumowania, kreatywnego pisania, wieloetapowych problemów. Najlepsze systemy używają obu: SLM do routingu/filtrowania, LLM do trudnych przypadków.

SLM (Small Language Model) — modele ~1-10B parametrów, optymalizowane pod inference efficiency (latency, memory, cost). Trend od 2024: modele <10B osiągające performance dawnych 70B+ dzięki lepszym danym treningowym i destylacji.

Techniki optymalizacji SLM

Data quality over quantity: Phi (Microsoft) — "textbook quality" synthetic data; mniej tokenów, lepsze wyniki
Distillation: teacher model generuje training data dla studenta
Quantization: 4-bit (Q4_K_M), 2-bit (GPTQ/AWQ) — dalsze zmniejszenie footprintu
Speculative decoding: SLM jako draft model, LLM akceptuje/odrzuca tokeny — przyspieszenie inference bez utraty jakości

Deployment

On-device: Core ML (Apple), TensorFlow Lite, ONNX Runtime, MediaPipe. Edge: Ollama, llama.cpp. Cloud: najniższe koszty inference — <$0.10/1M tokenów. Use case: routing, classification, summarization, structured extraction.