NA ŻYWO
Nauka, polityka i gaz. AI staje się przemysłem. Co to jest SLM? Small Language Model — mały, ale zdolny Co to jest open source AI? Modele AI dostępne dla każdego Co to jest Ollama? Uruchom modele AI na swoim komputerze Co to jest destylacja modeli AI? Mniejszy model, porównywalna jakość Co to jest guardrails AI? Barierki bezpieczeństwa modeli
CYTRYNA.AI
Słownik AI

Co to jest LLM? Large Language Model wyjaśniony po polsku

LLM (Large Language Model) to duży model językowy — sieć neuronowa wytrenowana na miliardach tekstów, zdolna do rozumienia i generowania języka naturalnego.

ChatGPT, Claude, Gemini — to wszystko LLM-y. Large Language Model, czyli duży model językowy. "Duży" to nie przechwałka: GPT-4 ma szacunkowo ponad bilion parametrów i był trenowany na tekście odpowiadającym setkom milionów książek.

Co LLM właściwie robi?

Przewiduje następne słowo. To brzmi banalnie, ale implikacje są ogromne. Model, który wystarczająco dobrze przewiduje co powinno być dalej, potrafi pisać eseje, tłumaczyć języki, odpowiadać na pytania i rozwiązywać problemy logiczne — bo żeby to robić dobrze, musi "rozumieć" strukturę wiedzy.

Skąd LLM "wie" rzeczy?

Z treningu. LLM jest trenowany na ogromnych zbiorach tekstu z internetu — książki, artykuły, Wikipedia, fora, kod źródłowy. Nie "pamięta" konkretnych stron, ale nauczył się wzorców: jak ludzie formułują myśli, jakie fakty łączą się z jakimi, jak wygląda poprawny kod Pythona.

Problem: wiedza LLM-a kończy się na dacie treningu. Co było potem — nie wie. Dlatego potrzebuje RAG (dostęp do aktualnych dokumentów) albo narzędzi (wyszukiwarka, API).

Główni gracze (2025–2026)

  • OpenAI: GPT-4o, o3, o4-mini — najpopularniejsze, najszersze API
  • Anthropic: Claude Sonnet 4, Claude Opus 4 — najlepsze w długim kontekście i kodowaniu
  • Google: Gemini 2.0 Ultra/Flash — milion tokenów kontekstu, multimodal
  • Meta: Llama 3.1 (open source, 405B) — darmowy, samodzielnie hostowany
  • Mistral: Mixtral, Mistral Large — europejski, GDPR-friendly

Często zadawane pytania

Czy LLM rozumie to co pisze?

To pytanie filozoficzne, na które nie ma jednoznacznej odpowiedzi. LLM nie ma świadomości ani intencji. Ale potrafi wyciągać wnioski, rozwiązywać nowe problemy i generować spójne argumenty. Czy to "rozumienie"? Zależy kogo zapytasz.

Czym LLM różni się od AI?

LLM to jeden typ AI — specjalizujący się w języku. AI to szersze pojęcie obejmujące też rozpoznawanie obrazów, sterowanie robotami, gry, rekomendacje. LLM jest teraz najpopularniejszym typem AI, ale nie jedynym.

LLM (Large Language Model) to autoregresyjny model językowy oparty na architekturze transformer (zazwyczaj decoder-only), trenowany na wieloterabajtowych korpusach tekstowych przez next-token prediction. Skala: od ~1B (SLM) do >1T parametrów.

Pipeline treningowy

  • Pre-training: unsupervised next-token prediction na webscale data (Common Crawl, Books, Code); cross-entropy loss; 10²¹–10²⁵ FLOPs
  • Supervised Fine-Tuning (SFT): instruction-following na curated datasets (10k–1M examples)
  • RLHF/DPO/RLAIF: alignment z preferencjami ludzkimi; reward model + PPO lub Direct Preference Optimization
  • Post-training: safety training, tool use training, capability-specific fine-tuning

Emergent capabilities

Modele >~100B parametrów wykazują zdolności nie obecne w mniejszych: few-shot learning, chain-of-thought reasoning, self-correction. Debata czy "emergence" jest artefaktem metryki (Schaeffer et al., 2023) czy realnym fenomenem.

Często zadawane pytania

Scaling laws — czy większy = lepszy?

Chinchilla scaling laws (Hoffmann et al., 2022): optymalny stosunek compute-to-data wynosi ~20 tokenów na parametr. Overtrained models (Llama: 15T tokenów na 70B params) łamią tę regułę celowo — mniejszy model na więcej danych = tańszy inference kosztem droższego treningu.