NA ŻYWO
Nauka, polityka i gaz. AI staje się przemysłem. Co to jest SLM? Small Language Model — mały, ale zdolny Co to jest open source AI? Modele AI dostępne dla każdego Co to jest Ollama? Uruchom modele AI na swoim komputerze Co to jest destylacja modeli AI? Mniejszy model, porównywalna jakość Co to jest guardrails AI? Barierki bezpieczeństwa modeli
CYTRYNA.AI
Słownik AI

Co to jest transformer? Architektura, która zmieniła AI

Transformer to architektura sieci neuronowej oparta na mechanizmie attention — podstawa GPT, Claude, Gemini i praktycznie każdego nowoczesnego modelu AI.

Każdy model AI, z którym rozmawiasz — ChatGPT, Claude, Gemini — jest zbudowany na tej samej architekturze. Nazywa się transformer i powstała w 2017 roku w zespole Google. Od tego czasu nic jej nie zastąpiło.

Dlaczego transformer był przełomem?

Przed transformerem modele językowe czytały tekst słowo po słowie, od lewej do prawej — jak człowiek czytający książkę. Problem: przy długich tekstach "zapominały" początek zanim doszły do końca.

Transformer czyta cały tekst naraz. Mechanizm attention ("uwaga") pozwala mu spojrzeć na dowolne słowo w kontekście wszystkich pozostałych — jednocześnie. To jak różnica między czytaniem zdania a widzeniem całej strony naraz.

Attention — serce architektury

Kiedy model przetwarza zdanie "Bank nad rzeką był zamknięty", musi zdecydować czy "bank" to instytucja finansowa czy brzeg rzeki. Attention pozwala mu "popatrzeć" na słowo "rzeką" i zrozumieć kontekst — automatycznie, bez reguł napisanych przez programistę.

Skala, która robi różnicę

  • GPT-3 (2020): 175 miliardów parametrów
  • GPT-4 (2023): szacunkowo 1.7 biliona parametrów (8×220B w architekturze MoE)
  • Llama 3.1 (2024): 405 miliardów parametrów

Im więcej parametrów i danych treningowych, tym lepiej model rozumie język. Ale koszty rosną kwadratowo z długością kontekstu — dlatego okno kontekstowe jest ograniczone.

Często zadawane pytania

Czy wszystkie modele AI to transformery?

Prawie wszystkie modele językowe — tak. Ale istnieją alternatywy: Mamba (architektura SSM), RWKV (hybryda RNN i transformera). Na razie żadna nie pobiła transformera w praktyce, choć SSM obiecuje niższe koszty przy długim kontekście.

Czym encoder różni się od decodera?

Encoder "rozumie" tekst (BERT, do klasyfikacji i wyszukiwania). Decoder "generuje" tekst (GPT, Claude). Oryginalny transformer z 2017 miał oba — ale większość dzisiejszych modeli czatowych to decoder-only.

Transformer (Vaswani et al., "Attention Is All You Need", 2017) to architektura seq2seq oparta wyłącznie na mechanizmie self-attention, bez rekurencji i konwolucji. Dominujący paradygmat w NLP, vision (ViT), audio i multimodal AI.

Kluczowe komponenty

  • Multi-Head Self-Attention: Q, K, V projekcje z learned weights; attention(Q,K,V) = softmax(QK^T/√d_k)V; wielogłowicowość = równoległe attention na różne aspekty
  • Feed-Forward Network (FFN): dwie warstwy liniowe z aktywacją (ReLU/SwiGLU); przetwarza każdy token niezależnie
  • Layer Normalization: Pre-LN (przed attention) stabilniejszy niż Post-LN; RMSNorm w nowoczesnych modelach
  • Positional Encoding: sinusoidal (oryginał), learned (BERT), RoPE (Llama), ALiBi

Warianty architekturalne

  • Encoder-only: BERT, RoBERTa — bidirectional attention; classification, retrieval
  • Decoder-only: GPT, Claude, Llama — causal (autoregressive) attention; generation
  • Encoder-decoder: T5, BART — original transformer; translation, summarization
  • MoE (Mixture of Experts): Mixtral, GPT-4 — sparse activation; scale params without proportional compute

Często zadawane pytania

Jaka jest złożoność obliczeniowa self-attention?

O(n²·d) gdzie n = długość sekwencji, d = wymiar modelu. Warianty liniowe (Performer, Linear Attention) redukują do O(n·d²), ale kosztem jakości. Flash Attention optymalizuje IO, nie złożoność asymptotyczną — ale w praktyce daje 2-4× speedup.