Koszty API AI mogą szybko wymknąć się spod kontroli. Ruben Hassid, jeden z najpopularniejszych twórców treści o AI na LinkedIn, wielokrotnie podkreślał, że "większość firm przepłaca za AI, bo nie rozumie tokenizacji". Nate Herk, ekspert od prompt engineeringu, systematycznie dokumentuje techniki optymalizacji, które jego klienci wdrażają, by ciąć koszty o 40–70% bez żadnej utraty jakości.
Ten artykuł zbiera 23 najskuteczniejsze techniki — od prostych zmian w promptach po zaawansowane strategie architektoniczne.
Dlaczego optymalizacja tokenów się opłaca?
Zanim przejdziemy do technik, krótka matematyka:
- 10 000 zapytań/dzień × 1000 tokenów/zapytanie = 10 000 000 tokenów/dzień
- Przy GPT-4o ($2,50/M): $25/dzień = ok. 100 PLN/dzień = ok. 3 000 PLN/miesiąc
- Redukcja o 40% = oszczędność 1 200 PLN/miesiąc
Przy droższych modelach (Claude Opus: $15/M) lub większej skali — oszczędności rosną proporcjonalnie.
CZĘŚĆ 1: Optymalizacja treści promptu
1. Usuń wyrażenia grzecznościowe
Zamiast: "Proszę, czy mógłbyś mi uprzejmie pomóc z przygotowaniem..."
Napisz: "Przygotuj..."
Model nie jest wrażliwy na uprzejmość. "Proszę", "dziękuję", "czy mógłbyś" to czyste straty tokenowe. Przy 10 000 zapytaniach dziennie — dziesiątki tysięcy zmarnowanych tokenów.
2. Eliminuj powtórzenia i redundancje
Sprawdź swój prompt — czy nie powtarzasz tej samej informacji kilka razy? "Odpowiedz po polsku. Użyj języka polskiego. Nie pisz po angielsku" to trzy tokeny za jedną informację.
Napisz: "Odpowiedz po polsku."
3. Używaj list zamiast opisów narracyjnych
Zamiast (37 tokenów): "Proszę, żebyś w swojej odpowiedzi uwzględnił datę, imię i nazwisko osoby, jej stanowisko w firmie oraz numer kontaktowy."
Napisz (12 tokenów): "Format: data | imię nazwisko | stanowisko | telefon"
4. Usuń zbędne przymiotniki i przysłówki
"Bardzo szczegółową i kompleksową analizę" → "analizę"
"Proszę uprzejmie o wyczerpującą odpowiedź" → "Odpowiedz wyczerpująco"
5. Skróć przykłady lub ogranicz ich liczbę
Przykłady w promptach są wartościowe, ale kosztowne. Zamiast 5 przykładów — daj 2, najlepiej dobrane. Zamiast długich przykładów — skróć je do minimum ilustrującego wzorzec.
6. Używaj angielskiego dla promptów systemowych
Jak szczegółowo opisaliśmy w artykule Dlaczego polski kosztuje więcej, polskie teksty generują 30–50% więcej tokenów. Prompt systemowy widzi model przy każdym zapytaniu — tłumaczenie go na angielski to jedna z najłatwiejszych optymalizacji.
Efekt: 30–50% mniej tokenów systemowych przy każdym zapytaniu.
7. Tłumacz zapytania użytkowników
Jeśli budujesz aplikację, w której użytkownicy piszą po polsku, rozważ automatyczne tłumaczenie na angielski → przetwarzanie przez LLM → tłumaczenie odpowiedzi z powrotem na polski.
Nasz Optymalizator promptów robi dokładnie to dla Twojego promptu — możesz zobaczyć oszczędność w liczbach.
8. Zastąp długie opisy krótszymi synonimami
"W związku z powyższym" → "Dlatego"
"Na podstawie dostarczonych informacji" → "Biorąc pod uwagę powyższe"
"Proszę o przeanalizowanie" → "Analizuj"
9. Usuń meta-komentarze
"Oto moja odpowiedź:", "Oczywiście, chętnie pomogę!", "Świetne pytanie!" — te frazy nie wnoszą treści. Poproś model, żeby je pomijał: "Odpowiedz bezpośrednio, bez wstępów."
10. Używaj skrótów i akronimów tam, gdzie są zrozumiałe
W kontekście technicznym: "AI" zamiast "sztuczna inteligencja", "UI" zamiast "interfejs użytkownika", "API" zamiast "interfejs programowania aplikacji".
CZĘŚĆ 2: Optymalizacja struktury promptu
11. XML zamiast opisu narracyjnego
Nate Herk regularnie pokazuje, że ustrukturyzowany XML jest bardziej efektywny tokenowo niż narracyjny opis — szczególnie dla złożonych promptów z wieloma komponentami.
Zamiast:
Użytkownik jest ekspertem od marketingu. Chce analizy tekstu. Tekst jest po polsku. Analiza powinna skupić się na tonie i emocjach. Odpowiedź powinna mieć maksymalnie 200 słów.
Napisz:
<role>marketing expert</role>
<task>analyze text: tone and emotions</task>
<input_lang>Polish</input_lang>
<output>max 200 words</output>
Oszczędność: 30–40% na opisie struktury.
12. Definiuj format wyjścia precyzyjnie
"Odpowiedz w formacie JSON z polami: title (string), summary (string, max 100 słów), tags (array of strings)" jest droższe niż pokazanie wzorca:
{"title": "", "summary": "", "tags": []}
13. Oddzielaj instrukcje od danych
Model przetwarza prompt sekwencyjnie. Krótkie, konkretne instrukcje na początku, dane (które mogą być zmienne) na końcu — to standard, który pozwala na cache'owanie instrukcji.
14. Używaj tokenów specjalnych dla delimitacji
Zamiast "Poniżej znajduje się tekst do analizy:", użyj krótszego separatora: "---" lub po prostu dwóch nowych linii. Model rozumie kontekst.
CZĘŚĆ 3: Optymalizacja długości odpowiedzi
15. Ogranicz długość odpowiedzi w prompt
"Odpowiedz w 3 zdaniach" jest zarówno tańsze (model generuje mniej tokenów = niższy koszt output) jak i często dokładniejsze niż "Odpowiedz krótko".
Pamiętaj: tokeny outputu kosztują zazwyczaj 4–5× więcej niż input. Skrócenie odpowiedzi o połowę przy modelu GPT-4o = oszczędność $5/M tokenów (vs. $2,50/M dla inputu).
16. Proś o odpowiedź bez wyjaśnień
"Podaj tylko wynik, bez wyjaśnienia" może zmniejszyć liczbę tokenów outputu o 50–80% w zadaniach klasyfikacji, ekstrakcji czy transformacji danych.
17. Ustal maksymalną długość (max_tokens)
W każdym wywołaniu API możesz ustawić parametr max_tokens. To twarda granica kosztu odpowiedzi. Dla aplikacji, gdzie odpowiedź nie powinna przekraczać 500 tokenów — ustaw max_tokens: 500.
18. Streaming zamiast czekania na całą odpowiedź
Streaming nie zmniejsza liczby tokenów, ale pozwala na wcześniejsze zatrzymanie generacji, jeśli odpowiedź jest już wystarczająca.
CZĘŚĆ 4: Optymalizacja architektoniczna
19. Prompt caching
Zarówno Anthropic jak i OpenAI oferują mechanizmy cache'owania powtarzających się fragmentów promptu.
- Anthropic Cache: fragmenty promptu dłuższe niż 1024 tokeny mogą być cache'owane; koszt cache hit: 10% ceny normalnej
- OpenAI Prompt Caching: automatyczne cache'owanie dla promptów >1024 tokenów; cache hit: 50% zniżki
Jeśli masz stały, długi prompt systemowy — cache'owanie może obniżyć Twoje koszty o 40–80%.
20. Wybierz tańszy model dla prostych zadań
Nie każde zadanie wymaga GPT-4o. Ruben Hassid w swoich analizach pokazuje, że dla zadań klasyfikacji, ekstrakcji danych czy prostych transformacji — modele takie jak GPT-4o Mini, Claude Haiku czy Gemini 2.5 Flash dają podobną jakość za 5–20× niższy koszt.
Stwórz "routing" — proste zadania idą do taniego modelu, złożone do drogiego.
21. Batch API
OpenAI i Anthropic oferują Batch API: zamiast wysyłać zapytania jedno po jednym, grupujesz je w paczki i wysyłasz asynchronicznie. Koszt: 50% taniej niż standardowy API.
Idealne dla: nocnego przetwarzania danych, analizy dużych zbiorów dokumentów, zadań, które nie wymagają natychmiastowej odpowiedzi.
22. Specjalistyczne modele zamiast LLM
Nie do każdego zadania potrzebujesz dużego modelu językowego. Jeśli potrzebujesz tylko klasyfikacji sentymentu, ekstrakcji encji czy tłumaczenia — istnieją specjalistyczne, tańsze modele.
DeepL (tłumaczenia), Whisper (transkrypcja audio), modele embeddingowe do wyszukiwania semantycznego — często są 10–100× tańsze niż GPT-4o przy podobnej lub lepszej jakości dla swojego zadania.
23. BYOK i własny klucz API
Jeśli korzystasz z platform takich jak nasz Cascade, możesz używać własnego klucza API — co oznacza, że płacisz bezpośrednio dostawcy (OpenAI, Anthropic) bez narzutów pośredników. Przy dużej skali to oszczędność 20–50% w stosunku do korzystania z gotowych produktów.
Ile możesz zaoszczędzić? Przykładowa kalkulacja
Wyobraź sobie aplikację z 10 000 zapytań/dzień, każde z promptem 1000 tokenów i odpowiedzią 500 tokenów, na GPT-4o:
Przed optymalizacją:
- Input: 10M × $2,50/M = $25/dzień
- Output: 5M × $10/M = $50/dzień
- Łącznie: $75/dzień ≈ 300 PLN/dzień ≈ 9 000 PLN/miesiąc
Po optymalizacji (zastosowane techniki 1–12, 15–16, 19):
- Prompt skrócony o 40%: 600 tokenów → Input: 6M × $2,50/M = $15/dzień
- Prompt caching (80% trafia do cache): $15 × 20% + $15 × 80% × 10% = $3 + $1,20 = $4,20/dzień input
- Output skrócony o 30%: 350 tokenów → 3,5M × $10/M = $35/dzień
- Łącznie: $39,20/dzień ≈ 157 PLN/dzień ≈ 4 700 PLN/miesiąc
Oszczędność: 4 300 PLN miesięcznie (48%) — przy identycznej funkcjonalności.
Od czego zacząć?
Priorytet technik zależy od Twojej sytuacji. Ogólna kolejność:
- Pierwsze kroki (techniki 1–10): proste zmiany w treści promptu, efekt widoczny od razu
- Kolejny poziom (11–14, 15–17): zmiana struktury i ograniczenia długości
- Architektura (19–23): cache'owanie, batch, routing — wymaga więcej pracy, ale daje największe oszczędności
Zacznij od policzenia, ile tokenów ma Twój obecny prompt — skorzystaj z iletokenow.pl i wklej swój prompt systemowy. Potem zastosuj techniki 1–10 i sprawdź wynik.
Sprawdź też: Porównanie cen AI 2026 — GPT-4o vs Claude vs Gemini