Jak działa ChatGPT? Tokenizacja, transformer i RLHF
ChatGPT od środka — tokenizacja, transformer, generowanie token po tokenie, trening RLHF. Bez żargonu.
ChatGPT używa 200 milionów ludzi, ale niewielu wie co się dzieje pod spodem. Nie ma tu żadnej magii — tylko elegancka matematyka. Tłumaczymy krok po kroku, bez żargonu.
Krótka odpowiedź: ChatGPT to sieć neuronowa (transformer), która rozkłada tekst na tokeny, przetwarza je przez warstwy mechanizmu uwagi i przewiduje token po tokenie — co powinno pojawić się dalej. Wytrenowana na miliardach stron tekstu, dostrojona przez ludzi, żeby być pomocna i bezpieczna.
Od słów do tokenów
Zanim ChatGPT w ogóle zacznie myśleć, musi zamienić twoje pytanie na liczby. Robi to przez tokenizację — rozkładanie tekstu na małe fragmenty zwane tokenami.
Przykład tokenizacji zdania:
"Jak działa ChatGPT?"
7 tokenów → 7 liczb → przetwarzanie przez model
Każdy token to liczba — identyfikator w słowniku modelu. GPT-4 ma słownik ~100 000 tokenów. Polskie słowa dzielą się na więcej tokenów niż angielskie, bo model trenowany był głównie na angielskim tekście.
Transformer — silnik ChatGPT
Architektura transformer (wymyślona w Google w 2017 roku w słynnym artykule "Attention is All You Need") to fundament wszystkich dużych modeli językowych — GPT, Claude, Gemini, Llama.
Kluczowy mechanizm to self-attention (uwaga własna). Dla każdego tokenu model uczy się jak "patrzeć" na inne tokeny w zdaniu — które są istotne dla zrozumienia znaczenia.
Analogia
Czytasz zdanie: "Bank odrzucił wniosek, bo był pusty." Słowo "bank" — czy chodzi o bank finansowy czy brzeg rzeki? Słowo "pusty" dopowiada kontekst. Transformer robi dokładnie to samo — każdy token "pyta" inne tokeny o kontekst i waży je według ważności.
Model składa się z dziesiątek warstw — każda kolejna warstwa buduje coraz bardziej abstrakcyjne reprezentacje znaczenia. GPT-4 ma ~96 warstw transformerowych i setki miliardów parametrów.
Jak ChatGPT generuje odpowiedź?
To kluczowy moment: ChatGPT nie "myśli" o całej odpowiedzi naraz. Generuje ją token po tokenie — jak człowiek piszący palcami, ale niesłychanie szybko.
Jeden token to ułamek sekundy. Pełna odpowiedź (200–500 tokenów) generuje się w 2–5 sekund.
Skąd ChatGPT wie co mówić? Trening
GPT-4 trenowano w trzech etapach:
1. Pre-training — nauka języka z całego internetu
Model "czytał" setki miliardów tokenów: Wikipedia, książki, GitHub, artykuły naukowe, fora, strony internetowe. Uczył się przewidywać kolejny token — to proste zadanie wymaga zrozumienia gramatyki, faktów, logiki i stylu.
2. Supervised Fine-Tuning (SFT)
Ludzcy annotatorzy pisali wzorcowe odpowiedzi na setki tysięcy pytań. Model dostrajał się na tych przykładach — uczył się "bycia asystentem".
3. RLHF — nagradzanie za jakość
Reinforcement Learning from Human Feedback to sekret dobrego zachowania ChatGPT. Ludzie oceniali pary odpowiedzi ("która lepsza?"). Z tych ocen trenowano osobny model nagrody. GPT optymalizował swoje odpowiedzi pod kątem wysokich nagród — czyli tego co ludzie uważają za pomocne, bezpieczne i precyzyjne.
Dlaczego ChatGPT jest uprzejmy?
RLHF nauczył model, że uprzejme, strukturyzowane odpowiedzi z nagłówkami dostają wyższe oceny. To nie "charakter" — to optymalizacja pod ludzką ocenę jakości.
Dlaczego ChatGPT nie zna faktów po swojej dacie odcięcia?
Model ma parametry wytrenowane na danych do określonego momentu — GPT-4o do początku 2024 roku. Co się zdarzyło po tej dacie — nie wie, bo nie było w danych treningowych. Żadne pytanie "co się stało tydzień temu" nie zadziała bez dostępu do internetu.
Dlatego ChatGPT z włączonym wyszukiwaniem (Search) działa inaczej — najpierw pobiera aktualne wyniki, wkłada je do kontekstu i dopiero wtedy generuje odpowiedź na ich podstawie.
FAQ — najczęstsze pytania
Czy ChatGPT rozumie po polsku?
Tak, choć angielski daje lepsze wyniki. GPT-4o trenowano na wielojęzycznych danych, ale proporcja polskiego tekstu to ułamek angielskiego. W praktyce: zapytania po polsku działają świetnie, ale techniczne lub kreatywne zadania mogą dawać lepsze wyniki po angielsku.
Czym różni się GPT-4 od GPT-4o?
GPT-4o ("o" = omni) to multimodalna wersja — przetwarza tekst, obraz i audio w jednym modelu. Jest też szybszy i tańszy niż GPT-4 Turbo, przy zachowaniu podobnej jakości. GPT-4o obsługuje też generowanie głosu w czasie rzeczywistym (Advanced Voice Mode).
Ile parametrów ma GPT-4?
OpenAI nie ujawniło oficjalnie. Nieoficjalne doniesienia mówią o ~1,8 biliona parametrów w architekturze Mixture of Experts (MoE) — wiele mniejszych modeli aktywowanych selektywnie. Dla porównania GPT-3 miał 175 miliardów parametrów.
Czy ChatGPT ma świadomość?
Nie. ChatGPT to zaawansowany statystyczny model języka. Nie ma wewnętrznych stanów, subiektywnych doświadczeń ani intencji. "Czuje" i "myśli" tylko w metaforycznym sensie — faktycznie wykonuje operacje macierzowe na wektorach tokenów. Pytanie o świadomość AI jest filozoficznie otwarte, ale nie ma podstaw naukowych by twierdzić że GPT-4 ją posiada.