NA ŻYWO
Nauka, polityka i gaz. AI staje się przemysłem. Co to jest SLM? Small Language Model — mały, ale zdolny Co to jest open source AI? Modele AI dostępne dla każdego Co to jest Ollama? Uruchom modele AI na swoim komputerze Co to jest destylacja modeli AI? Mniejszy model, porównywalna jakość Co to jest guardrails AI? Barierki bezpieczeństwa modeli
CYTRYNA.AI
Słownik AI

Co to jest SLM? Small Language Model — mały, ale zdolny

SLM (Small Language Model) to mały model językowy (do ~10B parametrów) — tańszy, szybszy i możliwy do uruchomienia na telefonie lub laptopie.

Nie każde zadanie wymaga modelu z bilionem parametrów. Jeśli potrzebujesz szybkiego podsumowania maila, prostej klasyfikacji tekstu albo asystenta na telefonie — mały model wystarczy. I będzie 100× tańszy.

Co to znaczy "mały"?

W świecie AI "mały" to wciąż miliardy parametrów. SLM-y mają od 1 do ~10 miliardów — w porównaniu z 175B (GPT-3) czy >1T (GPT-4) to rzeczywiście małe. Ale dzięki destylacji i lepszym danym treningowym, dzisiejszy model 3B potrafi więcej niż GPT-3 z 2020.

Przykłady SLM

  • Phi-3 Mini (3.8B) — Microsoft; zaskakująco dobry na benchmarkach, działa na telefonie
  • Llama 3.2 (1B / 3B) — Meta; zaprojektowany pod urządzenia mobilne i edge
  • Gemma 2 (2B) — Google; lekki, badawczy
  • Mistral 7B — na granicy SLM/LLM; świetny stosunek jakość/koszt
  • GPT-4o-mini — OpenAI; zamknięty, ale cenowo i wydajnościowo SLM-owy

Kiedy SLM zamiast LLM?

  • Budżet jest ograniczony — SLM jest 10-50× tańszy per token
  • Potrzebujesz niskiej latencji — SLM odpowiada w milisekundach
  • Dane nie mogą opuścić urządzenia — SLM działa lokalnie
  • Zadanie jest wąskie — klasyfikacja, ekstrakcja, podsumowanie

Często zadawane pytania

Czy SLM zastąpi LLM?

Nie. To komplementarne narzędzia. SLM do prostych, szybkich, tanich zadań. LLM do złożonego rozumowania, kreatywnego pisania, wieloetapowych problemów. Najlepsze systemy używają obu: SLM do routingu/filtrowania, LLM do trudnych przypadków.

SLM (Small Language Model) — modele ~1-10B parametrów, optymalizowane pod inference efficiency (latency, memory, cost). Trend od 2024: modele <10B osiągające performance dawnych 70B+ dzięki lepszym danym treningowym i destylacji.

Techniki optymalizacji SLM

  • Data quality over quantity: Phi (Microsoft) — "textbook quality" synthetic data; mniej tokenów, lepsze wyniki
  • Distillation: teacher model generuje training data dla studenta
  • Quantization: 4-bit (Q4_K_M), 2-bit (GPTQ/AWQ) — dalsze zmniejszenie footprintu
  • Speculative decoding: SLM jako draft model, LLM akceptuje/odrzuca tokeny — przyspieszenie inference bez utraty jakości

Deployment

On-device: Core ML (Apple), TensorFlow Lite, ONNX Runtime, MediaPipe. Edge: Ollama, llama.cpp. Cloud: najniższe koszty inference — <$0.10/1M tokenów. Use case: routing, classification, summarization, structured extraction.