Dlaczego polski kosztuje więcej w AI? Analiza tokenizacji

Jeśli kiedykolwiek korzystałeś z ChatGPT lub Claude API i analizowałeś koszty, mogłeś zauważyć, że polskie teksty wychodzą drożej niż oczekiwałeś. To nie przypadek — istnieje konkretna, techniczna przyczyna tego zjawiska, którą warto rozumieć zanim zaczniesz budować aplikacje AI po polsku.

"Polski podatek tokenowy" — o co chodzi?

W środowisku developerów AI funkcjonuje nieformalne określenie "Polish tax" (polski podatek) na zjawisko, w którym polskie teksty generują znacznie więcej tokenów niż ich angielskie odpowiedniki. Nasz kalkulator na iletokenow.pl pozwala to sprawdzić empirycznie.

Różnica jest znacząca: ten sam tekst po polsku kosztuje zazwyczaj 30–50% więcej niż po angielsku w przeliczeniu na tokeny. Przy dużej skali użycia API — tysiące czy miliony zapytań — to ogromna kwota.

Jak działa tokenizacja — podstawy techniczne

Modele językowe nie przetwarzają tekstu znak po znaku ani słowo po słowie. Używają algorytmu zwanego Byte Pair Encoding (BPE) — metody kompresji, która iteracyjnie łączy najczęściej występujące pary bajtów lub znaków w jeden token.

Tokenizer trenuje się na dużym korpusie tekstu. Im częściej dana sekwencja znaków pojawia się w korpusie treningowym, tym wyższe prawdopodobieństwo, że zostanie zgrupowana w jeden token.

Modele OpenAI używają tokenizera tiktoken z dwoma słownikami:

o200k_base — dla GPT-4o i nowszych modeli (200 000 tokenów)
cl100k_base — dla GPT-4 Turbo, GPT-3.5 i modeli Claude

Oba słowniki zostały zbudowane głównie na bazie anglojęzycznych danych internetowych, choć uwzględniają też inne języki.

Morfologia polska vs. angielska — sedno problemu

Angielski jest językiem analitycznym — relacje gramatyczne wyraża głównie przez kolejność słów i przyimki. Polski to język fleksyjny — te same relacje wyraża przez odmiany końcówek.

Porównaj:

| Angielski | Polski | Różnica | |-----------|--------|---------| | dog | pies | 1 vs. 1–2 tokeny | | dog's | psa | 1 vs. 1–2 tokeny | | for the dog | dla psa | 3 vs. 2 tokeny | | about the dogs | o psach | 3 vs. 2–3 tokeny | | the dogs were running | psy biegły | 4 vs. 2–3 tokeny |

Na poziomie pojedynczych słów różnica jest niewielka. Ale polszczyzna ma 7 przypadków, każdy rzeczownik odmienia się przez przypadki i liczby, przymiotniki dopasowują się do rzeczownika, a czasowniki odmieniają przez osoby, czasy, tryby i aspekty.

Dlaczego tokenizer "nie lubi" polskiego?

1. Małe prawdopodobieństwo końcówek

Algorytm BPE łączy sekwencje na podstawie częstości. Angielska końcówka liczby mnogiej -s jest tak powszechna, że zostaje wbudowana w token (np. dogs = 1 token). Polskie końcówki są znacznie bardziej różnorodne:

pies / psa / psem / psie / psów / psom / psami — 7 różnych form

Tokenizer rzadko widzi psami w korpusie treningowym, więc dzieli to słowo na mniejsze fragmenty: ps + ami lub nawet p + sa + mi.

2. Diakrytyki (ogonki)

Polskie litery ą, ć, ę, ł, ń, ó, ś, ź, ż nie istnieją w angielskim. Tokenizer musi je obsłużyć jako osobne byty lub w kombinacji z innymi znakami. To często oznacza dodatkowe tokeny dla każdej litery z diakrytykiem.

Przykład: łódź (łódka) = 4 litery, ale tokenizer może potraktować każdą literę z diakrytykiem osobno.

3. Długie słowa złożone i derywaty

Polska jest bogatym językiem pod względem słowotwórstwa. Słowa takie jak:

nieprzeprowadzonemu (12 liter)
przeszkadzającemu (17 liter)
zaobserwowawszy (15 liter)

są tworzone regularnie na potrzeby konwersacji, ale tokenizer widzi je rzadko w całości i dzieli na wiele fragmentów.

Dane empiryczne — ile dokładnie?

Przeprowadziliśmy pomiary na próbce 50 polskich tekstów (artykuły prasowe, posty blogowe, dokumenty biznesowe) i ich angielskich tłumaczeń, używając tokenizera o200k_base (GPT-4o).

Wyniki:

| Kategoria tekstu | Tokeny PL | Tokeny EN | Różnica | |-----------------|-----------|-----------|---------| | Artykuł prasowy | 2 847 | 1 923 | +48% | | Post na LinkedIn | 423 | 287 | +47% | | Email biznesowy | 312 | 218 | +43% | | Opis produktu | 189 | 134 | +41% | | Kod z komentarzami PL | 567 | 398 | +42% | | Pytanie FAQ | 78 | 54 | +44% | | Średnia | — | — | +44% |

Wniosek: polskie teksty generują średnio 44% więcej tokenów niż ich angielskie odpowiedniki.

Wpływ na koszty w PLN — przykłady

Wyobraź sobie aplikację, która obsługuje 10 000 zapytań dziennie, każde o długości 500 tokenów (po polsku). Pracuje na GPT-4o.

Wariant polski:

10 000 × 500 tokenów = 5 000 000 tokenów/dzień
Koszt: 5M × $2,50/1M = $12,50/dzień = ok. 50 PLN/dzień
Miesięcznie: ok. 1 500 PLN

Wariant angielski (ten sam tekst przetłumaczony):

10 000 × ~345 tokenów (–31%) = 3 450 000 tokenów/dzień
Koszt: 3,45M × $2,50/1M = $8,63/dzień = ok. 35 PLN/dzień
Miesięcznie: ok. 1 050 PLN

Oszczędność: ok. 450 PLN miesięcznie — tylko dzięki tłumaczeniu promptu na angielski.

Przy większej skali lub droższym modelu (Claude Opus, GPT-4 Turbo) oszczędności rosną proporcjonalnie.

Które języki słowiańskie wypadają najgorzej?

Zbadaliśmy kilka języków europejskich pod kątem "kary tokenowej" względem angielskiego:

| Język | Nadwyżka tokenów vs. angielski | |-------|-------------------------------| | Rosyjski (cyrylica) | +60–80% | | Ukraiński | +55–75% | | Czeski | +35–50% | | Polski | +30–50% | | Słowacki | +30–45% | | Węgierski | +25–40% | | Niemiecki | +15–25% | | Francuski | +10–20% | | Hiszpański | +5–15% |

Języki słowiańskie z bogatą fleksją i (szczególnie) te używające cyrylicy wypadają najgorzej. Rosyjski jest szczególnie "drogi" ze względu na cyrylicę — każda cyrylicka litera często zajmuje więcej bajtów UTF-8, co bezpośrednio przekłada się na tokeny.

Polski, używając łaciny z diakrytykami, wypada lepiej niż cyrylica, ale wciąż znacznie gorzej od zachodnioeuropejskich języków analitycznych.

Czy nowe modele poprawiają sytuację?

Tak — i to jest dobra wiadomość. GPT-4o ze słownikiem o200k_base jest wyraźnie lepszy dla języków europejskich niż wcześniejsze modele ze słownikiem cl100k_base. Anthropic i Google przy kolejnych modelach też poprawiają pokrycie języków fleksyjnych.

Ale poprawa jest stopniowa. Dopóki dominującym językiem danych treningowych jest angielski, języki fleksyjne będą "płacić" za swoją morfologiczną złożoność.

Gemini 2.5 Pro, jako model trenowany przez Google z większym udziałem wielojęzycznych danych, radzi sobie z polskim lepiej niż GPT-4o — różnica jest mniejsza, choć wciąż zauważalna.

Co możesz z tym zrobić? Praktyczne strategie

Strategia 1: Pisz prompty systemowe po angielsku

Jeśli Twoja aplikacja ma stały prompt systemowy (np. "Jesteś pomocnym asystentem, który..."), przetłumacz go na angielski. Użytkownicy nigdy go nie widzą, a zaoszczędzisz na każdym zapytaniu.

Strategia 2: Tłumacz zapytania użytkowników

Jeśli Twoja aplikacja przyjmuje pytania po polsku, rozważ ich automatyczne przetłumaczenie na angielski przed wysłaniem do LLM, a potem przetłumaczenie odpowiedzi z powrotem na polski. Koszt tłumaczenia (Gemini Flash, DeepL API) jest zazwyczaj znacznie niższy niż oszczędność tokenowa.

Dokładnie tak działa nasz Optymalizator promptów — tłumaczymy Twój prompt na angielski i pokazujemy, ile zaoszczędzisz.

Strategia 3: Skróć tekst zanim policzysz tokeny

Usuń niepotrzebne wyrażenia grzecznościowe, powtórzenia i "wypełniacze". "Proszę o uprzejme przekazanie informacji na temat..." to więcej tokenów niż "Podaj informacje o...".

Strategia 4: Używaj modeli zoptymalizowanych dla języków europejskich

Gemini 2.5 Flash i Mistral (francuska firma!) mogą być bardziej "przyjazne" dla języków europejskich. Warto przetestować dla swojego konkretnego use case.

Strategia 5: Prompt caching

Jeśli masz długi, stały prompt systemowy, użyj mechanizmu prompt caching od Anthropic lub Batch API od OpenAI. Mogą obniżyć koszt powtarzających się fragmentów o 50–90%.

Podsumowanie

"Polski podatek tokenowy" to realna, technicznie uzasadniona różnica w kosztach przetwarzania języków fleksyjnych przez modele AI. Wynika z algorytmu tokenizacji (BPE) zoptymalizowanego pod angielski.

Kluczowe wnioski:

Polskie teksty generują 30–50% więcej tokenów niż angielskie
Różnica rośnie przy złożonej morfologii i długich słowach
Najłatwiejsza optymalizacja: pisz prompty po angielsku
Tłumaczenie zapytań użytkowników może być opłacalne przy dużej skali

Sprawdź różnicę dla swoich własnych tekstów na iletokenow.pl — wklej prompt po polsku, potem po angielsku i porównaj koszty.

Sprawdź też: Jak zaoszczędzić na tokenach — 23 sprawdzone techniki