Co to jest transformer? Architektura, która zmieniła AI

aktualizacja: 19 lut 2026

Soczek Koncentrat

Transformer to architektura sieci neuronowej oparta na mechanizmie attention — podstawa GPT, Claude, Gemini i praktycznie każdego nowoczesnego modelu AI.

Każdy model AI, z którym rozmawiasz — ChatGPT, Claude, Gemini — jest zbudowany na tej samej architekturze. Nazywa się transformer i powstała w 2017 roku w zespole Google. Od tego czasu nic jej nie zastąpiło.

Dlaczego transformer był przełomem?

Przed transformerem modele językowe czytały tekst słowo po słowie, od lewej do prawej — jak człowiek czytający książkę. Problem: przy długich tekstach "zapominały" początek zanim doszły do końca.

Transformer czyta cały tekst naraz. Mechanizm attention ("uwaga") pozwala mu spojrzeć na dowolne słowo w kontekście wszystkich pozostałych — jednocześnie. To jak różnica między czytaniem zdania a widzeniem całej strony naraz.

Attention — serce architektury

Kiedy model przetwarza zdanie "Bank nad rzeką był zamknięty", musi zdecydować czy "bank" to instytucja finansowa czy brzeg rzeki. Attention pozwala mu "popatrzeć" na słowo "rzeką" i zrozumieć kontekst — automatycznie, bez reguł napisanych przez programistę.

Skala, która robi różnicę

GPT-3 (2020): 175 miliardów parametrów
GPT-4 (2023): szacunkowo 1.7 biliona parametrów (8×220B w architekturze MoE)
Llama 3.1 (2024): 405 miliardów parametrów

Im więcej parametrów i danych treningowych, tym lepiej model rozumie język. Ale koszty rosną kwadratowo z długością kontekstu — dlatego okno kontekstowe jest ograniczone.

Często zadawane pytania

Czy wszystkie modele AI to transformery?

Prawie wszystkie modele językowe — tak. Ale istnieją alternatywy: Mamba (architektura SSM), RWKV (hybryda RNN i transformera). Na razie żadna nie pobiła transformera w praktyce, choć SSM obiecuje niższe koszty przy długim kontekście.

Czym encoder różni się od decodera?

Encoder "rozumie" tekst (BERT, do klasyfikacji i wyszukiwania). Decoder "generuje" tekst (GPT, Claude). Oryginalny transformer z 2017 miał oba — ale większość dzisiejszych modeli czatowych to decoder-only.

Transformer (Vaswani et al., "Attention Is All You Need", 2017) to architektura seq2seq oparta wyłącznie na mechanizmie self-attention, bez rekurencji i konwolucji. Dominujący paradygmat w NLP, vision (ViT), audio i multimodal AI.

Kluczowe komponenty

Multi-Head Self-Attention: Q, K, V projekcje z learned weights; attention(Q,K,V) = softmax(QK^T/√d_k)V; wielogłowicowość = równoległe attention na różne aspekty
Feed-Forward Network (FFN): dwie warstwy liniowe z aktywacją (ReLU/SwiGLU); przetwarza każdy token niezależnie
Layer Normalization: Pre-LN (przed attention) stabilniejszy niż Post-LN; RMSNorm w nowoczesnych modelach
Positional Encoding: sinusoidal (oryginał), learned (BERT), RoPE (Llama), ALiBi

Warianty architekturalne

Encoder-only: BERT, RoBERTa — bidirectional attention; classification, retrieval
Decoder-only: GPT, Claude, Llama — causal (autoregressive) attention; generation
Encoder-decoder: T5, BART — original transformer; translation, summarization
MoE (Mixture of Experts): Mixtral, GPT-4 — sparse activation; scale params without proportional compute

Często zadawane pytania

Jaka jest złożoność obliczeniowa self-attention?

O(n²·d) gdzie n = długość sekwencji, d = wymiar modelu. Warianty liniowe (Performer, Linear Attention) redukują do O(n·d²), ale kosztem jakości. Flash Attention optymalizuje IO, nie złożoność asymptotyczną — ale w praktyce daje 2-4× speedup.