NA ŻYWO
Nauka, polityka i gaz. AI staje się przemysłem. Co to jest SLM? Small Language Model — mały, ale zdolny Co to jest open source AI? Modele AI dostępne dla każdego Co to jest Ollama? Uruchom modele AI na swoim komputerze Co to jest destylacja modeli AI? Mniejszy model, porównywalna jakość Co to jest guardrails AI? Barierki bezpieczeństwa modeli
CYTRYNA.AI
Słownik AI

Co to jest token w AI? Tokenizacja modeli językowych

Token to najmniejsza jednostka tekstu, jaką przetwarza model językowy — może być słowem, fragmentem słowa lub znakiem. GPT-4 ma limit 128 000 tokenów w jednym zapytaniu.

ChatGPT czyta Twoje wiadomości inaczej, niż Ci się wydaje. Nie widzi słów. Widzi tokeny — kawałki tekstu, które mogą być całym słowem, fragmentem słowa albo pojedynczym znakiem. I to właśnie ta różnica sprawia, że wysyłanie długich tekstów po polsku kosztuje więcej niż po angielsku.

Czym dokładnie jest token?

Weź słowo "tokenizacja". Po angielsku: jeden token. Po polsku — ta sama długość, ale model rozbija je na 3–4 tokeny, bo polskie końcówki i odmiany rzadziej pojawiały się w jego danych treningowych. Im rzadsze słowo, tym więcej kawałków. Emoji i znaki specjalne to często osobne tokeny.

W praktyce 1000 tokenów to mniej więcej 750 słów po angielsku albo 600 po polsku. Miej to w głowie zanim wkleisz długi dokument.

Ile tokenów mają popularne modele?

  • GPT-4o: 128 000 tokenów — to ok. 300 stron A4 tekstu naraz
  • Claude 3.7 Sonnet: 200 000 tokenów — ok. 450 stron
  • Gemini 1.5 Pro: 1 000 000 tokenów — ok. 1500 stron

Brzmi jak dużo? Jest. Ale pamiętaj, że w tym oknie mieści się całe zapytanie — Twoja instrukcja, historia rozmowy, wklejone dokumenty i odpowiedź modelu razem.

Dlaczego to ma znaczenie dla Twojego portfela?

API modeli rozlicza się za tokeny — osobno za wejście (co wysyłasz) i wyjście (co dostajesz). Dłuższy kontekst = wyższy rachunek. Dlatego dobry prompt to często też krótszy prompt — bez zbędnych wstępów i powtórzeń.

Często zadawane pytania

Czy mogę sprawdzić ile tokenów zużywa mój tekst?

Tak. OpenAI ma narzędzie online: platform.openai.com/tokenizer. Wklej tekst, zobaczysz dokładną liczbę tokenów dla modeli GPT. Dla Clauda podobne narzędzie znajdziesz w dokumentacji Anthropic.

Co się dzieje gdy skończy się limit tokenów?

Model albo zwraca błąd, albo — w interfejsach chatowych — po cichu "zapomina" najstarsze wiadomości. To dlatego długie rozmowy z ChatGPT mogą się "gubić" — bot przestaje pamiętać co mówiłeś godzinę temu.

Czy token to to samo co "słowo" w liczeniu opłat?

Nie. Wiele firm marketingowych liczy "słowa" w swoich narzędziach, ale modele liczą tokeny. Przy polskim tekście różnica potrafi sięgać 30–40% — płacisz więcej niż myślisz.

Token to atomowa jednostka przetwarzania w architekturze transformerowej. Tokenizator (np. BPE — Byte Pair Encoding, używany przez GPT; SentencePiece — używany przez modele Google) dzieli sekwencję znaków na podciągi słownikowe przed wejściem do modelu.

Właściwości tokenizacji

  • Zależność od języka: języki z bogatą fleksją (polski, czeski, węgierski) generują więcej tokenów per słowo niż angielski — typowo 1.3–1.6× więcej tokenów przy tej samej treści
  • Subword tokenization: rzadkie słowa są rozbijane na znane podciągi; "zautomatyzowanego" → "zautomaty", "zo", "wanego" (przykład orientacyjny)
  • Specjalne tokeny: modele używają tokenów kontrolnych (BOS, EOS, PAD, MASK) niewidocznych w interfejsie

Okna kontekstowe modeli (2025–2026)

  • GPT-4o: 128k tokenów wejście / 16k wyjście
  • Claude 3.7 Sonnet: 200k / 64k (extended thinking)
  • Gemini 2.0 Flash: 1M / 8k
  • Llama 3.1 405B: 128k / 128k

Implikacje dla kosztów API

Opłaty są naliczane osobno za tokeny wejściowe (prompt + kontekst + dokumenty) i wyjściowe (wygenerowana odpowiedź). Cache'owanie promptów (Anthropic prompt caching, OpenAI cached inputs) redukuje koszty przy powtarzalnych prefixach o 50–90%. Przy projektowaniu systemów RAG lub agentów warto kalkulować średni koszt per wywołanie z uwzględnieniem cache hit ratio.

Często zadawane pytania

Czy liczba tokenów wpływa na jakość odpowiedzi?

Pośrednio. Zbyt krótki kontekst może nie zawierać niezbędnych informacji. Zbyt długi — model może tracić skupienie na kluczowych fragmentach (efekt "lost in the middle": modele lepiej "pamiętają" początek i koniec kontekstu niż środek).

Czym różni się tokenizacja GPT od Claude?

GPT używa cl100k_base (100 277 tokenów w słowniku), Claude używa własnego tokenizatora Anthropic opartego na BPE z rozszerzonym słownikiem. Przy tej samej treści po polsku Claude generuje zazwyczaj nieznacznie inną liczbę tokenów niż GPT-4.