O projekcie iletokenow.pl
iletokenow.pl powstał z prostej obserwacji: polski tekst kosztuje znacznie więcej tokenów niż angielski o tym samym znaczeniu. Dla firm używających AI na co dzień, różnica potrafi wynieść kilka tysięcy złotych rocznie.
Co to narzędzie robi
Pozwala policzyć dokładną liczbę tokenów dla dowolnego tekstu — dla najpopularniejszych modeli językowych (GPT-4o, GPT-4, Llama, Mistral, Qwen) — i pokazuje koszt tego tekstu w złotówkach, z aktualnym kursem NBP. Dodatkowo szacuje, ile można zaoszczędzić pisząc po angielsku.
Dlaczego to ważne
Tokenizery modeli językowych są trenowane głównie na angielskim korpusie. Polskie słowa — z naszą odmianą i diakrytykami — są dzielone na więcej sub-tokenów. Dla firm skalujących wykorzystanie AI to realny, kilkuprocentowy do kilkudziesięcioprocentowego narzut kosztów, o którym mało kto mówi wprost.
Jak liczymy „polski podatek”
Wykorzystujemy korpus OPUS-100 — zbiór 5 000 par zdań profesjonalnie przetłumaczonych między polskim a angielskim. Dla każdego tokenizera porównujemy liczbę tokenów w polskim zdaniu i jego angielskim odpowiedniku. Mediana tego stosunku to nasz „współczynnik polskiego podatku". Wartości te są dostępne publicznie jako plik JSON.
Prywatność
Wszystkie obliczenia wykonywane są lokalnie w Twojej przeglądarce. Twój tekst nigdy nie jest wysyłany na żaden serwer — ani nasz, ani OpenAI, ani żaden inny. Nie zbieramy logów, nie zbieramy danych, nie używamy trackerów reklamowych. Szczegóły znajdziesz w polityce prywatności.
Otwarte dane
Współczynniki polskiego podatku są jawne — jeśli chcesz je wykorzystać w swoim narzędziu lub artykule, pobierz je z /data/polish-tax-ratios.json. Jedyne, o co prosimy, to podanie źródła.
Kontakt
Pytania, uwagi, błędy? Napisz do nas.