NA ŻYWO
Nauka, polityka i gaz. AI staje się przemysłem. Co to jest SLM? Small Language Model — mały, ale zdolny Co to jest open source AI? Modele AI dostępne dla każdego Co to jest Ollama? Uruchom modele AI na swoim komputerze Co to jest destylacja modeli AI? Mniejszy model, porównywalna jakość Co to jest guardrails AI? Barierki bezpieczeństwa modeli
CYTRYNA.AI

Jak działa ChatGPT? Tokenizacja, transformer i RLHF

ChatGPT od środka — tokenizacja, transformer, generowanie token po tokenie, trening RLHF. Bez żargonu.

ChatGPT używa 200 milionów ludzi, ale niewielu wie co się dzieje pod spodem. Nie ma tu żadnej magii — tylko elegancka matematyka. Tłumaczymy krok po kroku, bez żargonu.

Krótka odpowiedź: ChatGPT to sieć neuronowa (transformer), która rozkłada tekst na tokeny, przetwarza je przez warstwy mechanizmu uwagi i przewiduje token po tokenie — co powinno pojawić się dalej. Wytrenowana na miliardach stron tekstu, dostrojona przez ludzi, żeby być pomocna i bezpieczna.

Od słów do tokenów

Zanim ChatGPT w ogóle zacznie myśleć, musi zamienić twoje pytanie na liczby. Robi to przez tokenizację — rozkładanie tekstu na małe fragmenty zwane tokenami.

Przykład tokenizacji zdania:

"Jak działa ChatGPT?"

Jak dzia ła Chat G PT ?

7 tokenów → 7 liczb → przetwarzanie przez model

Każdy token to liczba — identyfikator w słowniku modelu. GPT-4 ma słownik ~100 000 tokenów. Polskie słowa dzielą się na więcej tokenów niż angielskie, bo model trenowany był głównie na angielskim tekście.

~100k tokenów w słowniku GPT-4
128k tokenów kontekstu GPT-4o (≈100k słów)
~0.75 słowa na token (ang.)

Transformer — silnik ChatGPT

Architektura transformer (wymyślona w Google w 2017 roku w słynnym artykule "Attention is All You Need") to fundament wszystkich dużych modeli językowych — GPT, Claude, Gemini, Llama.

Kluczowy mechanizm to self-attention (uwaga własna). Dla każdego tokenu model uczy się jak "patrzeć" na inne tokeny w zdaniu — które są istotne dla zrozumienia znaczenia.

Analogia

Czytasz zdanie: "Bank odrzucił wniosek, bo był pusty." Słowo "bank" — czy chodzi o bank finansowy czy brzeg rzeki? Słowo "pusty" dopowiada kontekst. Transformer robi dokładnie to samo — każdy token "pyta" inne tokeny o kontekst i waży je według ważności.

Model składa się z dziesiątek warstw — każda kolejna warstwa buduje coraz bardziej abstrakcyjne reprezentacje znaczenia. GPT-4 ma ~96 warstw transformerowych i setki miliardów parametrów.

Jak ChatGPT generuje odpowiedź?

To kluczowy moment: ChatGPT nie "myśli" o całej odpowiedzi naraz. Generuje ją token po tokenie — jak człowiek piszący palcami, ale niesłychanie szybko.

Wejście — twoje pytanie + historia rozmowy jako tokeny
Transformer — 96 warstw uwagi przetwarza wszystkie tokeny
Rozkład prawdopodobieństwa — model oblicza: jakie tokeny mogą pojawić się dalej i z jakim prawdopodobieństwem?
Sampling — wybierany jest jeden token (z uwzględnieniem "temperatury" — parametru kreatywności)
Pętla — nowy token dołącza do kontekstu, cały proces powtarza się dla następnego tokenu

Jeden token to ułamek sekundy. Pełna odpowiedź (200–500 tokenów) generuje się w 2–5 sekund.

Skąd ChatGPT wie co mówić? Trening

GPT-4 trenowano w trzech etapach:

1. Pre-training — nauka języka z całego internetu

Model "czytał" setki miliardów tokenów: Wikipedia, książki, GitHub, artykuły naukowe, fora, strony internetowe. Uczył się przewidywać kolejny token — to proste zadanie wymaga zrozumienia gramatyki, faktów, logiki i stylu.

2. Supervised Fine-Tuning (SFT)

Ludzcy annotatorzy pisali wzorcowe odpowiedzi na setki tysięcy pytań. Model dostrajał się na tych przykładach — uczył się "bycia asystentem".

3. RLHF — nagradzanie za jakość

Reinforcement Learning from Human Feedback to sekret dobrego zachowania ChatGPT. Ludzie oceniali pary odpowiedzi ("która lepsza?"). Z tych ocen trenowano osobny model nagrody. GPT optymalizował swoje odpowiedzi pod kątem wysokich nagród — czyli tego co ludzie uważają za pomocne, bezpieczne i precyzyjne.

Dlaczego ChatGPT jest uprzejmy?

RLHF nauczył model, że uprzejme, strukturyzowane odpowiedzi z nagłówkami dostają wyższe oceny. To nie "charakter" — to optymalizacja pod ludzką ocenę jakości.

Dlaczego ChatGPT nie zna faktów po swojej dacie odcięcia?

Model ma parametry wytrenowane na danych do określonego momentu — GPT-4o do początku 2024 roku. Co się zdarzyło po tej dacie — nie wie, bo nie było w danych treningowych. Żadne pytanie "co się stało tydzień temu" nie zadziała bez dostępu do internetu.

Dlatego ChatGPT z włączonym wyszukiwaniem (Search) działa inaczej — najpierw pobiera aktualne wyniki, wkłada je do kontekstu i dopiero wtedy generuje odpowiedź na ich podstawie.

FAQ — najczęstsze pytania

Czy ChatGPT rozumie po polsku?

Tak, choć angielski daje lepsze wyniki. GPT-4o trenowano na wielojęzycznych danych, ale proporcja polskiego tekstu to ułamek angielskiego. W praktyce: zapytania po polsku działają świetnie, ale techniczne lub kreatywne zadania mogą dawać lepsze wyniki po angielsku.

Czym różni się GPT-4 od GPT-4o?

GPT-4o ("o" = omni) to multimodalna wersja — przetwarza tekst, obraz i audio w jednym modelu. Jest też szybszy i tańszy niż GPT-4 Turbo, przy zachowaniu podobnej jakości. GPT-4o obsługuje też generowanie głosu w czasie rzeczywistym (Advanced Voice Mode).

Ile parametrów ma GPT-4?

OpenAI nie ujawniło oficjalnie. Nieoficjalne doniesienia mówią o ~1,8 biliona parametrów w architekturze Mixture of Experts (MoE) — wiele mniejszych modeli aktywowanych selektywnie. Dla porównania GPT-3 miał 175 miliardów parametrów.

Czy ChatGPT ma świadomość?

Nie. ChatGPT to zaawansowany statystyczny model języka. Nie ma wewnętrznych stanów, subiektywnych doświadczeń ani intencji. "Czuje" i "myśli" tylko w metaforycznym sensie — faktycznie wykonuje operacje macierzowe na wektorach tokenów. Pytanie o świadomość AI jest filozoficznie otwarte, ale nie ma podstaw naukowych by twierdzić że GPT-4 ją posiada.

Dołącz do czytelników

Codziennie rano wiesz więcej o AI

Wyciśnięta esencja ze świata sztucznej inteligencji — bez szumu, bez spamu. Co tydzień pełne podsumowanie prosto na maila.

Bezpłatnie. Rezygnacja w każdej chwili.