Co to jest transformer? Architektura, która zmieniła AI
Transformer to architektura sieci neuronowej oparta na mechanizmie attention — podstawa GPT, Claude, Gemini i praktycznie każdego nowoczesnego modelu AI.
Każdy model AI, z którym rozmawiasz — ChatGPT, Claude, Gemini — jest zbudowany na tej samej architekturze. Nazywa się transformer i powstała w 2017 roku w zespole Google. Od tego czasu nic jej nie zastąpiło.
Dlaczego transformer był przełomem?
Przed transformerem modele językowe czytały tekst słowo po słowie, od lewej do prawej — jak człowiek czytający książkę. Problem: przy długich tekstach "zapominały" początek zanim doszły do końca.
Transformer czyta cały tekst naraz. Mechanizm attention ("uwaga") pozwala mu spojrzeć na dowolne słowo w kontekście wszystkich pozostałych — jednocześnie. To jak różnica między czytaniem zdania a widzeniem całej strony naraz.
Attention — serce architektury
Kiedy model przetwarza zdanie "Bank nad rzeką był zamknięty", musi zdecydować czy "bank" to instytucja finansowa czy brzeg rzeki. Attention pozwala mu "popatrzeć" na słowo "rzeką" i zrozumieć kontekst — automatycznie, bez reguł napisanych przez programistę.
Skala, która robi różnicę
- GPT-3 (2020): 175 miliardów parametrów
- GPT-4 (2023): szacunkowo 1.7 biliona parametrów (8×220B w architekturze MoE)
- Llama 3.1 (2024): 405 miliardów parametrów
Im więcej parametrów i danych treningowych, tym lepiej model rozumie język. Ale koszty rosną kwadratowo z długością kontekstu — dlatego okno kontekstowe jest ograniczone.
Często zadawane pytania
Czy wszystkie modele AI to transformery?
Prawie wszystkie modele językowe — tak. Ale istnieją alternatywy: Mamba (architektura SSM), RWKV (hybryda RNN i transformera). Na razie żadna nie pobiła transformera w praktyce, choć SSM obiecuje niższe koszty przy długim kontekście.
Czym encoder różni się od decodera?
Encoder "rozumie" tekst (BERT, do klasyfikacji i wyszukiwania). Decoder "generuje" tekst (GPT, Claude). Oryginalny transformer z 2017 miał oba — ale większość dzisiejszych modeli czatowych to decoder-only.
Transformer (Vaswani et al., "Attention Is All You Need", 2017) to architektura seq2seq oparta wyłącznie na mechanizmie self-attention, bez rekurencji i konwolucji. Dominujący paradygmat w NLP, vision (ViT), audio i multimodal AI.
Kluczowe komponenty
- Multi-Head Self-Attention: Q, K, V projekcje z learned weights; attention(Q,K,V) = softmax(QK^T/√d_k)V; wielogłowicowość = równoległe attention na różne aspekty
- Feed-Forward Network (FFN): dwie warstwy liniowe z aktywacją (ReLU/SwiGLU); przetwarza każdy token niezależnie
- Layer Normalization: Pre-LN (przed attention) stabilniejszy niż Post-LN; RMSNorm w nowoczesnych modelach
- Positional Encoding: sinusoidal (oryginał), learned (BERT), RoPE (Llama), ALiBi
Warianty architekturalne
- Encoder-only: BERT, RoBERTa — bidirectional attention; classification, retrieval
- Decoder-only: GPT, Claude, Llama — causal (autoregressive) attention; generation
- Encoder-decoder: T5, BART — original transformer; translation, summarization
- MoE (Mixture of Experts): Mixtral, GPT-4 — sparse activation; scale params without proportional compute
Często zadawane pytania
Jaka jest złożoność obliczeniowa self-attention?
O(n²·d) gdzie n = długość sekwencji, d = wymiar modelu. Warianty liniowe (Performer, Linear Attention) redukują do O(n·d²), ale kosztem jakości. Flash Attention optymalizuje IO, nie złożoność asymptotyczną — ale w praktyce daje 2-4× speedup.