Poradnik·~25 minut czytania·

Jak oszczędzać tokeny w AI

Ostateczny polski przewodnik po oszczędzaniu tokenów w ChatGPT, Claude i Gemini. Zebrane z doświadczenia społeczności, dokumentacji oraz własnych testów.

Wprowadzenie

TODO: ~300 słów — dlaczego tokeny mają znaczenie, problem kumulowania, czego nauczy ten poradnik, dla kogo jest (marketerzy, deweloperzy, copywriterzy, właściciele firm). Wzmianka o źródłach: Ruben Hassid i Nate Herk.

💡 Zanim zaczniesz

Jeśli chcesz sprawdzić, ile tokenów kosztuje Twój konkretny tekst — użyj naszego licznika tokenów przed i po zastosowaniu tipów.

Jak działają tokeny (w 2 minuty)

TODO: ~400 słów — wytłumaczenie tokenów prostym językiem. 1 token ≈ słowo (uproszczenie). Przykład: "niemożliwe" = 3 tokeny w GPT-4o. Problem kumulowania z Nate's guide: wiadomość #30 = 31× koszt wiadomości #1.

Efekt kumulowania tokenów — liczba wiadomości w rozmowie vs. całkowity koszt tokenów

Wiadomość #30 w długiej rozmowie kosztuje tyle, co 31 oddzielnych konwersacji

TODO: ciąg dalszy — link do licznika tokenów, zachęta do testowania.

Dlaczego polski kosztuje więcej

TODO: ~300 słów — BPE, English bias, dane z korpusu OPUS-100, konkretne liczby (52% overhead). Link do pełnej analizy na blogu.

ℹ️ Nasza własna analiza

TODO: ramka z konkretnymi liczbami z naszych badań. Np. 5 000 par zdań PL/EN, mediana tokenów wejściowych.

📌 Szybkie tipy (dla każdego)

Poniższe tipy działają niezależnie od modelu i planu. Każdy możesz wdrożyć dziś, bez żadnej konfiguracji.

1. Wybierz właściwy model do zadania

TODO: ~400 słów — zasada "właściwe narzędzie do pracy". Mini-tabela: Haiku/GPT-4o mini/ Gemini Flash dla prostych zadań, Sonnet/GPT-4o dla złożonych, Opus dla deep work. Przykład: "30-sekundowa odpowiedź nie potrzebuje Opusa". Atrybucja: Ruben Hassid.

2. Konwertuj pliki do Markdown przed uploadem

TODO: ~400 słów — statystyki z Nate's guide: HTML → Markdown: ~90% mniej tokenów, PDF → Markdown: ~65–70% mniej, DOCX → Markdown: ~33% mniej. Narzędzia: Docling, doc.new trick. Wyjątek: zostaw oryginał gdy potrzebujesz OCR/vision.

Względna liczba tokenów wg formatu pliku (Markdown = punkt odniesienia)
PDF
100%
DOCX
67%
HTML
55%
Markdown
35%

Konwersja PDF → Markdown zmniejsza liczbę tokenów o ~65–70%

3. Edytuj wiadomości zamiast wysyłać korekty

TODO: ~300 słów — główna sztuczka Rubena: przycisk "Edit" w Chat zachowuje długość kontekstu. Follow-upy kumulują się. Przykład: 20 wiadomości follow-up = 105K tokenów; 20 edytów = 8K. Atrybucja: Ruben Hassid.

4. Nowy chat dla nowego tematu

TODO: ~200 słów — analogia z restauracją: każdy temat to świeży kelner. Kontekst z poprzednich tematów to marnotrawstwo tokenów. Link do licznika.

5. Skracaj prompty przez "Zadaj mi pytania"

TODO: ~250 słów — 30-słowny prompt Rubena: "I want to [task] to [success criteria]. Read my folder. Ask me questions before you start." Dlaczego działa: klikanie opcji kosztuje mniej niż pisanie paragrafów. Atrybucja: Ruben Hassid.

6. Batch zadania w jednej wiadomości

TODO: ~200 słów — 3 oddzielne prompty = 3 reloady = więcej tokenów. Jedna wiadomość z 3 zadaniami = 1 reload. Przykład batch prompt.

7. Bądź precyzyjny ze scope

TODO: ~200 słów — "Przeróbek tylko sekcję 3" vs "Przeróbek wszystko". Ilustracja kosztu tokenów.

8. "No commentary. Just the output."

TODO: ~200 słów — jak Claude domyślnie werbalizuje "Chętnie pomogę! Oto co zrobiłem..." i jak to wyłączyć. Konkretny fragment systemowego promptu.

9. Plan w Chat, buduj w Code

TODO: ~300 słów — workflow Rubena: Chat = tańsze planowanie struktury, Cowork/Code = droższe budowanie artefaktów. Przykład z modelem finansowym i postami LinkedIn. Atrybucja: Ruben Hassid.

10. Wyłącz funkcje, których nie potrzebujesz

TODO: ~200 słów — web search, connectors, extended thinking — wszystko dodaje tokeny. Domyślnie: wszystko wyłączone, włączaj per zadanie.

🧠 Zaawansowane tipy (dla power users)

Poniższe tipy wymagają głębszego zrozumienia modeli lub dostępu do planu Pro/API. Przynoszą jednak największe oszczędności przy intensywnym użytkowaniu.

11. Ręczny compact przy 60%, nie czekaj na 95%

TODO: ~400 słów — główna zasada Nate'a: auto-compaction przy 95% = peak context rot. Dokładność pobierania: 92% przy 256K → 78% przy 1M. "Manual compact at 60% always beats auto at 95%." Workflow: prompt podsumowania, kopiuj, /clear, wklej. Atrybucja: Nate Herk.

12. Sub-agenty na tańszych modelach

TODO: ~350 słów — strategia sub-agentów z Nate's guide: główna sesja na Opus, research/summarization na Haiku. "Think of it as a research intern." Przykładowe use cases. Atrybucja: Nate Herk.

13. Session chaining (discovery → planning → execution)

TODO: ~300 słów — technika Nate'a dla dużych projektów: sesja 1 czyta pliki i produkuje dokument podsumowujący, sesja 2 czyta podsumowanie i tworzy plan, sesja 3 czyta plan i buduje. Atrybucja: Nate Herk.

14. Użyj Projects z RAG (zamiast stackowania plików)

TODO: ~300 słów — funkcja Projects: upload raz, odwołuj wiele razy. RAG retrieval vs pełne ładowanie kontekstu. Do umów, brand guides, raportów.

15. Standaryzuj prompty (partial caching)

TODO: ~250 słów — Anthropic's partial caching na podobnych promptach. Utrzymaj stabilną bibliotekę promptów, wymieniaj zmienne części. Przykładowy szablon.

16. Wispr Flow / voice input dla bogatszych promptów

TODO: ~200 słów — kontrintuicyjne: mówienie = więcej kontekstu na starcie = mniej iteracji = mniej tokenów. Narzędzie: Wispr Flow.

🎯 Tipy specyficzne — Claude

TODO: ~500 słów — Extended thinking (kiedy warto/kiedy nie), dyscyplina CLAUDE.md (<200 linii / 2 000 tokenów), /rewind jako nawyk #1 Anthropic, /compact vs /clear i metoda Nate'a, 5-godzinne okno dla Pro, Artifacts — plan w chat, twórz w artifacts.

Okna kontekstowe — skala
GPT-4o
128K tok.
Claude Opus 4.7
200K tok.
Gemini 2.5 Pro
1M tok.

🎯 Tipy specyficzne — ChatGPT

TODO: ~500 słów — GPT-4o mini jest często wystarczający (10× tańszy), różnice context window między modelami, Memory feature (zostawić czy wyłączyć), Custom Instructions — stały kontekst bez tokenów, Structured output, Vision: zrzuty ekranu 1000×1000 = ~1 300 tokenów — cropuj!

🎯 Tipy specyficzne — Gemini

TODO: ~400 słów — 1M context window dla dużych dokumentów, Gemini 2.5 Flash ($0,075/1M — najtańszy premium), code execution i search w cenie, AI Studio vs Gemini app — różne limity.

🛠 Narzędzia, które pomagają

TODO: ~450 słów — lista narzędzi: iletokenow.pl (nasz licznik, screenshot + link), Optymalizator promptów (nasz, bezpłatny), Docling (konwersja PDF/DOCX→Markdown), Wispr Flow (voice-to-text), Anthropic's token counting API, OpenAI tiktokenizer, dashboardy kredytów.

💡 Zacznij od licznika

Przed wdrożeniem tipów sprawdź baseline — wklej swój typowy prompt do naszego licznika tokenów i zanotuj liczbę. Po tygodniu sprawdź ponownie.

📚 Źródła i podziękowania

TODO: ~200 słów — podziękowania i linki do: Ruben Hassid "How to stop hitting Claude usage limits", Nate Herk "How to Never Hit Your Claude Limit Again", Anthropic docs, OpenAI docs, nasze dane z korpusu OPUS-100.

❓ Najczęściej zadawane pytania

Czy tipy działają tak samo dla darmowych kont?

Większość tipów działa na każdym planie. Tipy dotyczące /compact i sub-agentów wymagają planu Pro lub dostępu przez API.

Jak dużo realnie zaoszczędzę stosując te tipy?

Zależy od stylu pracy. Najczęstszy efekt po wdrożeniu 3–5 tipów to 40–70% mniej tokenów miesięcznie. Samo przełączenie na tańszy model do prostych zadań często daje 50–60% oszczędności bez żadnej zmiany w jakości.

Które tipy dają największe oszczędności?

Największy efekt dają: (1) konwersja plików do Markdown — do 70% mniej tokenów, (2) wybór tańszego modelu — do 15× mniej, (3) edytowanie zamiast follow-upów — do 13× mniej w długich sesjach.

Czy ChatGPT Plus ma ukryte limity tokenów?

Tak. ChatGPT Plus nie oferuje nieograniczonego dostępu — Twoja pula wiadomości i tokenów jest limitowana w 3-godzinnych oknach. Dokładne limity OpenAI nie podaje oficjalnie, ale doświadczeni użytkownicy szacują ~40–50 wiadomości z GPT-4o co 3 godziny.

Dlaczego Claude ma 5-godzinne okno?

Anthropic stosuje "rolling window" — Twój budżet tokenów odnawia się stopniowo w 5-godzinnym oknie, nie resetuje o północy. To oznacza, że intensywne używanie przez 5 godzin z rzędu uderzy w limit, ale po przerwie budżet się odnawia.

Czy tłumaczenie na angielski zawsze się opłaca?

Tak, jeśli model i tak zwraca wyniki po polsku. Prompt po angielsku = 30–52% mniej tokenów wejściowych. Jeśli potrzebujesz odpowiedzi po polsku, dopisz do promptu: "Respond in Polish."

Jak mierzyć swoje zużycie tokenów?

Użyj naszego licznika tokenów na iletokenow.pl do wyceny promptów przed wysłaniem. Do monitorowania historycznych kosztów: OpenAI Usage Dashboard (platform.openai.com), Anthropic Console (console.anthropic.com), Google AI Studio.

Czy subskrypcja vs API jest bardziej opłacalna?

Dla użytkowników indywidualnych (<200K tokenów/mies.): subskrypcja jest tańsza. Dla firm (>500K tokenów/mies.): API z optymalizacją modelu jest zwykle tańsze. Granica jest różna dla każdego modelu — sprawdź nasze porównanie cen.

Co robić, kiedy osiągnę limit?

Kilka opcji: (1) Poczekaj na odnowienie (Claude: 5h, ChatGPT: 3h). (2) Przejdź tymczasowo na tańszy model. (3) Kontynuuj przez API (nie ma limitów RPM, tylko billing). (4) Zastosuj technikę session chaining — skompresuj kontekst i zacznij nową sesję.

Czy te tipy będą aktualne za rok?

Zasady oszczędzania tokenów (mniejszy kontekst, tańszy model do prostych zadań, konwersja formatów) są fundamentalne i przetrwają kolejne generacje modeli. Konkretne narzędzia i ceny zmienią się, ale aktualizujemy poradnik co kwartał.

Podsumowanie

TODO: ~250 słów — 3 najważniejsze tipy, od czego zacząć w tym tygodniu, link do licznika tokenów, zachęta do udostępnienia poradnika.

🔑 Trzy tipy na start

Jeśli możesz wdrożyć tylko trzy rzeczy w tym tygodniu:

1. Konwertuj PDFy do Markdown przed uploadem.
2. Używaj przycisku Edit zamiast pisać "zrób to jeszcze raz".
3. Testuj GPT-4o mini / Claude Haiku 4.5 do prostych zadań.

Znalazłeś błąd lub masz tip do dodania? Napisz do nas — poradnik jest żywym dokumentem.