Pod maską

Jak działa ChatGPT? Tokenizacja, transformer i RLHF

10 marca 2026 min czytania

ChatGPT od środka — tokenizacja, transformer, generowanie token po tokenie, trening RLHF. Bez żargonu.

ChatGPT używa 200 milionów ludzi, ale niewielu wie co się dzieje pod spodem. Nie ma tu żadnej magii — tylko elegancka matematyka. Tłumaczymy krok po kroku, bez żargonu.

Krótka odpowiedź: ChatGPT to sieć neuronowa (transformer), która rozkłada tekst na tokeny, przetwarza je przez warstwy mechanizmu uwagi i przewiduje token po tokenie — co powinno pojawić się dalej. Wytrenowana na miliardach stron tekstu, dostrojona przez ludzi, żeby być pomocna i bezpieczna.

Od słów do tokenów

Zanim ChatGPT w ogóle zacznie myśleć, musi zamienić twoje pytanie na liczby. Robi to przez tokenizację — rozkładanie tekstu na małe fragmenty zwane tokenami.

Przykład tokenizacji zdania:

"Jak działa ChatGPT?"

Jak dzia ła Chat G PT ?

7 tokenów → 7 liczb → przetwarzanie przez model

Każdy token to liczba — identyfikator w słowniku modelu. GPT-4 ma słownik ~100 000 tokenów. Polskie słowa dzielą się na więcej tokenów niż angielskie, bo model trenowany był głównie na angielskim tekście.

~100k tokenów w słowniku GPT-4

128k tokenów kontekstu GPT-4o (≈100k słów)

~0.75 słowa na token (ang.)

Transformer — silnik ChatGPT

Architektura transformer (wymyślona w Google w 2017 roku w słynnym artykule "Attention is All You Need") to fundament wszystkich dużych modeli językowych — GPT, Claude, Gemini, Llama.

Kluczowy mechanizm to self-attention (uwaga własna). Dla każdego tokenu model uczy się jak "patrzeć" na inne tokeny w zdaniu — które są istotne dla zrozumienia znaczenia.

Analogia

Czytasz zdanie: "Bank odrzucił wniosek, bo był pusty." Słowo "bank" — czy chodzi o bank finansowy czy brzeg rzeki? Słowo "pusty" dopowiada kontekst. Transformer robi dokładnie to samo — każdy token "pyta" inne tokeny o kontekst i waży je według ważności.

Model składa się z dziesiątek warstw — każda kolejna warstwa buduje coraz bardziej abstrakcyjne reprezentacje znaczenia. GPT-4 ma ~96 warstw transformerowych i setki miliardów parametrów.

Jak ChatGPT generuje odpowiedź?

To kluczowy moment: ChatGPT nie "myśli" o całej odpowiedzi naraz. Generuje ją token po tokenie — jak człowiek piszący palcami, ale niesłychanie szybko.

Wejście — twoje pytanie + historia rozmowy jako tokeny

↓

Transformer — 96 warstw uwagi przetwarza wszystkie tokeny

↓

Rozkład prawdopodobieństwa — model oblicza: jakie tokeny mogą pojawić się dalej i z jakim prawdopodobieństwem?

↓

Sampling — wybierany jest jeden token (z uwzględnieniem "temperatury" — parametru kreatywności)

↓

Pętla — nowy token dołącza do kontekstu, cały proces powtarza się dla następnego tokenu

Jeden token to ułamek sekundy. Pełna odpowiedź (200–500 tokenów) generuje się w 2–5 sekund.

Skąd ChatGPT wie co mówić? Trening

GPT-4 trenowano w trzech etapach:

1. Pre-training — nauka języka z całego internetu

Model "czytał" setki miliardów tokenów: Wikipedia, książki, GitHub, artykuły naukowe, fora, strony internetowe. Uczył się przewidywać kolejny token — to proste zadanie wymaga zrozumienia gramatyki, faktów, logiki i stylu.

2. Supervised Fine-Tuning (SFT)

Ludzcy annotatorzy pisali wzorcowe odpowiedzi na setki tysięcy pytań. Model dostrajał się na tych przykładach — uczył się "bycia asystentem".

3. RLHF — nagradzanie za jakość

Reinforcement Learning from Human Feedback to sekret dobrego zachowania ChatGPT. Ludzie oceniali pary odpowiedzi ("która lepsza?"). Z tych ocen trenowano osobny model nagrody. GPT optymalizował swoje odpowiedzi pod kątem wysokich nagród — czyli tego co ludzie uważają za pomocne, bezpieczne i precyzyjne.

Dlaczego ChatGPT jest uprzejmy?

RLHF nauczył model, że uprzejme, strukturyzowane odpowiedzi z nagłówkami dostają wyższe oceny. To nie "charakter" — to optymalizacja pod ludzką ocenę jakości.

Dlaczego ChatGPT nie zna faktów po swojej dacie odcięcia?

Model ma parametry wytrenowane na danych do określonego momentu — GPT-4o do początku 2024 roku. Co się zdarzyło po tej dacie — nie wie, bo nie było w danych treningowych. Żadne pytanie "co się stało tydzień temu" nie zadziała bez dostępu do internetu.

Dlatego ChatGPT z włączonym wyszukiwaniem (Search) działa inaczej — najpierw pobiera aktualne wyniki, wkłada je do kontekstu i dopiero wtedy generuje odpowiedź na ich podstawie.

FAQ — najczęstsze pytania

Czy ChatGPT rozumie po polsku?

Tak, choć angielski daje lepsze wyniki. GPT-4o trenowano na wielojęzycznych danych, ale proporcja polskiego tekstu to ułamek angielskiego. W praktyce: zapytania po polsku działają świetnie, ale techniczne lub kreatywne zadania mogą dawać lepsze wyniki po angielsku.

Czym różni się GPT-4 od GPT-4o?

GPT-4o ("o" = omni) to multimodalna wersja — przetwarza tekst, obraz i audio w jednym modelu. Jest też szybszy i tańszy niż GPT-4 Turbo, przy zachowaniu podobnej jakości. GPT-4o obsługuje też generowanie głosu w czasie rzeczywistym (Advanced Voice Mode).

Ile parametrów ma GPT-4?

OpenAI nie ujawniło oficjalnie. Nieoficjalne doniesienia mówią o ~1,8 biliona parametrów w architekturze Mixture of Experts (MoE) — wiele mniejszych modeli aktywowanych selektywnie. Dla porównania GPT-3 miał 175 miliardów parametrów.

Czy ChatGPT ma świadomość?

Nie. ChatGPT to zaawansowany statystyczny model języka. Nie ma wewnętrznych stanów, subiektywnych doświadczeń ani intencji. "Czuje" i "myśli" tylko w metaforycznym sensie — faktycznie wykonuje operacje macierzowe na wektorach tokenów. Pytanie o świadomość AI jest filozoficznie otwarte, ale nie ma podstaw naukowych by twierdzić że GPT-4 ją posiada.