O projekcie iletokenow.pl

iletokenow.pl powstał z prostej obserwacji: polski tekst kosztuje znacznie więcej tokenów niż angielski o tym samym znaczeniu. Dla firm używających AI na co dzień, różnica potrafi wynieść kilka tysięcy złotych rocznie.

Co to narzędzie robi

Pozwala policzyć dokładną liczbę tokenów dla dowolnego tekstu — dla najpopularniejszych modeli językowych (GPT-4o, GPT-4, Llama, Mistral, Qwen) — i pokazuje koszt tego tekstu w złotówkach, z aktualnym kursem NBP. Dodatkowo szacuje, ile można zaoszczędzić pisząc po angielsku.

Dlaczego to ważne

Tokenizery modeli językowych są trenowane głównie na angielskim korpusie. Polskie słowa — z naszą odmianą i diakrytykami — są dzielone na więcej sub-tokenów. Dla firm skalujących wykorzystanie AI to realny, kilkuprocentowy do kilkudziesięcioprocentowego narzut kosztów, o którym mało kto mówi wprost.

Jak liczymy „polski podatek”

Wykorzystujemy korpus OPUS-100 — zbiór 5 000 par zdań profesjonalnie przetłumaczonych między polskim a angielskim. Dla każdego tokenizera porównujemy liczbę tokenów w polskim zdaniu i jego angielskim odpowiedniku. Mediana tego stosunku to nasz „współczynnik polskiego podatku". Wartości te są dostępne publicznie jako plik JSON.

Prywatność

Wszystkie obliczenia wykonywane są lokalnie w Twojej przeglądarce. Twój tekst nigdy nie jest wysyłany na żaden serwer — ani nasz, ani OpenAI, ani żaden inny. Nie zbieramy logów, nie zbieramy danych, nie używamy trackerów reklamowych. Szczegóły znajdziesz w polityce prywatności.

Otwarte dane

Współczynniki polskiego podatku są jawne — jeśli chcesz je wykorzystać w swoim narzędziu lub artykule, pobierz je z /data/polish-tax-ratios.json. Jedyne, o co prosimy, to podanie źródła.

Kontakt

Pytania, uwagi, błędy? Napisz do nas.