Co to jest SLM? Small Language Model — mały, ale zdolny
SLM (Small Language Model) to mały model językowy (do ~10B parametrów) — tańszy, szybszy i możliwy do uruchomienia na telefonie lub laptopie.
Nie każde zadanie wymaga modelu z bilionem parametrów. Jeśli potrzebujesz szybkiego podsumowania maila, prostej klasyfikacji tekstu albo asystenta na telefonie — mały model wystarczy. I będzie 100× tańszy.
Co to znaczy "mały"?
W świecie AI "mały" to wciąż miliardy parametrów. SLM-y mają od 1 do ~10 miliardów — w porównaniu z 175B (GPT-3) czy >1T (GPT-4) to rzeczywiście małe. Ale dzięki destylacji i lepszym danym treningowym, dzisiejszy model 3B potrafi więcej niż GPT-3 z 2020.
Przykłady SLM
- Phi-3 Mini (3.8B) — Microsoft; zaskakująco dobry na benchmarkach, działa na telefonie
- Llama 3.2 (1B / 3B) — Meta; zaprojektowany pod urządzenia mobilne i edge
- Gemma 2 (2B) — Google; lekki, badawczy
- Mistral 7B — na granicy SLM/LLM; świetny stosunek jakość/koszt
- GPT-4o-mini — OpenAI; zamknięty, ale cenowo i wydajnościowo SLM-owy
Kiedy SLM zamiast LLM?
- Budżet jest ograniczony — SLM jest 10-50× tańszy per token
- Potrzebujesz niskiej latencji — SLM odpowiada w milisekundach
- Dane nie mogą opuścić urządzenia — SLM działa lokalnie
- Zadanie jest wąskie — klasyfikacja, ekstrakcja, podsumowanie
Często zadawane pytania
Czy SLM zastąpi LLM?
Nie. To komplementarne narzędzia. SLM do prostych, szybkich, tanich zadań. LLM do złożonego rozumowania, kreatywnego pisania, wieloetapowych problemów. Najlepsze systemy używają obu: SLM do routingu/filtrowania, LLM do trudnych przypadków.
SLM (Small Language Model) — modele ~1-10B parametrów, optymalizowane pod inference efficiency (latency, memory, cost). Trend od 2024: modele <10B osiągające performance dawnych 70B+ dzięki lepszym danym treningowym i destylacji.
Techniki optymalizacji SLM
- Data quality over quantity: Phi (Microsoft) — "textbook quality" synthetic data; mniej tokenów, lepsze wyniki
- Distillation: teacher model generuje training data dla studenta
- Quantization: 4-bit (Q4_K_M), 2-bit (GPTQ/AWQ) — dalsze zmniejszenie footprintu
- Speculative decoding: SLM jako draft model, LLM akceptuje/odrzuca tokeny — przyspieszenie inference bez utraty jakości
Deployment
On-device: Core ML (Apple), TensorFlow Lite, ONNX Runtime, MediaPipe. Edge: Ollama, llama.cpp. Cloud: najniższe koszty inference — <$0.10/1M tokenów. Use case: routing, classification, summarization, structured extraction.