Co to jest token w AI? Tokenizacja modeli językowych
Token to najmniejsza jednostka tekstu, jaką przetwarza model językowy — może być słowem, fragmentem słowa lub znakiem. GPT-4 ma limit 128 000 tokenów w jednym zapytaniu.
ChatGPT czyta Twoje wiadomości inaczej, niż Ci się wydaje. Nie widzi słów. Widzi tokeny — kawałki tekstu, które mogą być całym słowem, fragmentem słowa albo pojedynczym znakiem. I to właśnie ta różnica sprawia, że wysyłanie długich tekstów po polsku kosztuje więcej niż po angielsku.
Czym dokładnie jest token?
Weź słowo "tokenizacja". Po angielsku: jeden token. Po polsku — ta sama długość, ale model rozbija je na 3–4 tokeny, bo polskie końcówki i odmiany rzadziej pojawiały się w jego danych treningowych. Im rzadsze słowo, tym więcej kawałków. Emoji i znaki specjalne to często osobne tokeny.
W praktyce 1000 tokenów to mniej więcej 750 słów po angielsku albo 600 po polsku. Miej to w głowie zanim wkleisz długi dokument.
Ile tokenów mają popularne modele?
- GPT-4o: 128 000 tokenów — to ok. 300 stron A4 tekstu naraz
- Claude 3.7 Sonnet: 200 000 tokenów — ok. 450 stron
- Gemini 1.5 Pro: 1 000 000 tokenów — ok. 1500 stron
Brzmi jak dużo? Jest. Ale pamiętaj, że w tym oknie mieści się całe zapytanie — Twoja instrukcja, historia rozmowy, wklejone dokumenty i odpowiedź modelu razem.
Dlaczego to ma znaczenie dla Twojego portfela?
API modeli rozlicza się za tokeny — osobno za wejście (co wysyłasz) i wyjście (co dostajesz). Dłuższy kontekst = wyższy rachunek. Dlatego dobry prompt to często też krótszy prompt — bez zbędnych wstępów i powtórzeń.
Często zadawane pytania
Czy mogę sprawdzić ile tokenów zużywa mój tekst?
Tak. OpenAI ma narzędzie online: platform.openai.com/tokenizer. Wklej tekst, zobaczysz dokładną liczbę tokenów dla modeli GPT. Dla Clauda podobne narzędzie znajdziesz w dokumentacji Anthropic.
Co się dzieje gdy skończy się limit tokenów?
Model albo zwraca błąd, albo — w interfejsach chatowych — po cichu "zapomina" najstarsze wiadomości. To dlatego długie rozmowy z ChatGPT mogą się "gubić" — bot przestaje pamiętać co mówiłeś godzinę temu.
Czy token to to samo co "słowo" w liczeniu opłat?
Nie. Wiele firm marketingowych liczy "słowa" w swoich narzędziach, ale modele liczą tokeny. Przy polskim tekście różnica potrafi sięgać 30–40% — płacisz więcej niż myślisz.
Token to atomowa jednostka przetwarzania w architekturze transformerowej. Tokenizator (np. BPE — Byte Pair Encoding, używany przez GPT; SentencePiece — używany przez modele Google) dzieli sekwencję znaków na podciągi słownikowe przed wejściem do modelu.
Właściwości tokenizacji
- Zależność od języka: języki z bogatą fleksją (polski, czeski, węgierski) generują więcej tokenów per słowo niż angielski — typowo 1.3–1.6× więcej tokenów przy tej samej treści
- Subword tokenization: rzadkie słowa są rozbijane na znane podciągi; "zautomatyzowanego" → "zautomaty", "zo", "wanego" (przykład orientacyjny)
- Specjalne tokeny: modele używają tokenów kontrolnych (BOS, EOS, PAD, MASK) niewidocznych w interfejsie
Okna kontekstowe modeli (2025–2026)
- GPT-4o: 128k tokenów wejście / 16k wyjście
- Claude 3.7 Sonnet: 200k / 64k (extended thinking)
- Gemini 2.0 Flash: 1M / 8k
- Llama 3.1 405B: 128k / 128k
Implikacje dla kosztów API
Opłaty są naliczane osobno za tokeny wejściowe (prompt + kontekst + dokumenty) i wyjściowe (wygenerowana odpowiedź). Cache'owanie promptów (Anthropic prompt caching, OpenAI cached inputs) redukuje koszty przy powtarzalnych prefixach o 50–90%. Przy projektowaniu systemów RAG lub agentów warto kalkulować średni koszt per wywołanie z uwzględnieniem cache hit ratio.
Często zadawane pytania
Czy liczba tokenów wpływa na jakość odpowiedzi?
Pośrednio. Zbyt krótki kontekst może nie zawierać niezbędnych informacji. Zbyt długi — model może tracić skupienie na kluczowych fragmentach (efekt "lost in the middle": modele lepiej "pamiętają" początek i koniec kontekstu niż środek).
Czym różni się tokenizacja GPT od Claude?
GPT używa cl100k_base (100 277 tokenów w słowniku), Claude używa własnego tokenizatora Anthropic opartego na BPE z rozszerzonym słownikiem. Przy tej samej treści po polsku Claude generuje zazwyczaj nieznacznie inną liczbę tokenów niż GPT-4.