Jak oszczędzać tokeny w AI
Ostateczny polski przewodnik po oszczędzaniu tokenów w ChatGPT, Claude i Gemini. Zebrane z doświadczenia społeczności, dokumentacji oraz własnych testów.
Wprowadzenie
TODO: ~300 słów — dlaczego tokeny mają znaczenie, problem kumulowania, czego nauczy ten poradnik, dla kogo jest (marketerzy, deweloperzy, copywriterzy, właściciele firm). Wzmianka o źródłach: Ruben Hassid i Nate Herk.
💡 Zanim zaczniesz
Jak działają tokeny (w 2 minuty)
TODO: ~400 słów — wytłumaczenie tokenów prostym językiem. 1 token ≈ słowo (uproszczenie). Przykład: "niemożliwe" = 3 tokeny w GPT-4o. Problem kumulowania z Nate's guide: wiadomość #30 = 31× koszt wiadomości #1.
Wiadomość #30 w długiej rozmowie kosztuje tyle, co 31 oddzielnych konwersacji
TODO: ciąg dalszy — link do licznika tokenów, zachęta do testowania.
Dlaczego polski kosztuje więcej
TODO: ~300 słów — BPE, English bias, dane z korpusu OPUS-100, konkretne liczby (52% overhead). Link do pełnej analizy na blogu.
ℹ️ Nasza własna analiza
📌 Szybkie tipy (dla każdego)
Poniższe tipy działają niezależnie od modelu i planu. Każdy możesz wdrożyć dziś, bez żadnej konfiguracji.
1. Wybierz właściwy model do zadania
TODO: ~400 słów — zasada "właściwe narzędzie do pracy". Mini-tabela: Haiku/GPT-4o mini/ Gemini Flash dla prostych zadań, Sonnet/GPT-4o dla złożonych, Opus dla deep work. Przykład: "30-sekundowa odpowiedź nie potrzebuje Opusa". Atrybucja: Ruben Hassid.
2. Konwertuj pliki do Markdown przed uploadem
TODO: ~400 słów — statystyki z Nate's guide: HTML → Markdown: ~90% mniej tokenów, PDF → Markdown: ~65–70% mniej, DOCX → Markdown: ~33% mniej. Narzędzia: Docling, doc.new trick. Wyjątek: zostaw oryginał gdy potrzebujesz OCR/vision.
Konwersja PDF → Markdown zmniejsza liczbę tokenów o ~65–70%
3. Edytuj wiadomości zamiast wysyłać korekty
TODO: ~300 słów — główna sztuczka Rubena: przycisk "Edit" w Chat zachowuje długość kontekstu. Follow-upy kumulują się. Przykład: 20 wiadomości follow-up = 105K tokenów; 20 edytów = 8K. Atrybucja: Ruben Hassid.
4. Nowy chat dla nowego tematu
TODO: ~200 słów — analogia z restauracją: każdy temat to świeży kelner. Kontekst z poprzednich tematów to marnotrawstwo tokenów. Link do licznika.
5. Skracaj prompty przez "Zadaj mi pytania"
TODO: ~250 słów — 30-słowny prompt Rubena: "I want to [task] to [success criteria]. Read my folder. Ask me questions before you start." Dlaczego działa: klikanie opcji kosztuje mniej niż pisanie paragrafów. Atrybucja: Ruben Hassid.
6. Batch zadania w jednej wiadomości
TODO: ~200 słów — 3 oddzielne prompty = 3 reloady = więcej tokenów. Jedna wiadomość z 3 zadaniami = 1 reload. Przykład batch prompt.
7. Bądź precyzyjny ze scope
TODO: ~200 słów — "Przeróbek tylko sekcję 3" vs "Przeróbek wszystko". Ilustracja kosztu tokenów.
8. "No commentary. Just the output."
TODO: ~200 słów — jak Claude domyślnie werbalizuje "Chętnie pomogę! Oto co zrobiłem..." i jak to wyłączyć. Konkretny fragment systemowego promptu.
9. Plan w Chat, buduj w Code
TODO: ~300 słów — workflow Rubena: Chat = tańsze planowanie struktury, Cowork/Code = droższe budowanie artefaktów. Przykład z modelem finansowym i postami LinkedIn. Atrybucja: Ruben Hassid.
10. Wyłącz funkcje, których nie potrzebujesz
TODO: ~200 słów — web search, connectors, extended thinking — wszystko dodaje tokeny. Domyślnie: wszystko wyłączone, włączaj per zadanie.
🧠 Zaawansowane tipy (dla power users)
Poniższe tipy wymagają głębszego zrozumienia modeli lub dostępu do planu Pro/API. Przynoszą jednak największe oszczędności przy intensywnym użytkowaniu.
11. Ręczny compact przy 60%, nie czekaj na 95%
TODO: ~400 słów — główna zasada Nate'a: auto-compaction przy 95% = peak context rot. Dokładność pobierania: 92% przy 256K → 78% przy 1M. "Manual compact at 60% always beats auto at 95%." Workflow: prompt podsumowania, kopiuj, /clear, wklej. Atrybucja: Nate Herk.
12. Sub-agenty na tańszych modelach
TODO: ~350 słów — strategia sub-agentów z Nate's guide: główna sesja na Opus, research/summarization na Haiku. "Think of it as a research intern." Przykładowe use cases. Atrybucja: Nate Herk.
13. Session chaining (discovery → planning → execution)
TODO: ~300 słów — technika Nate'a dla dużych projektów: sesja 1 czyta pliki i produkuje dokument podsumowujący, sesja 2 czyta podsumowanie i tworzy plan, sesja 3 czyta plan i buduje. Atrybucja: Nate Herk.
14. Użyj Projects z RAG (zamiast stackowania plików)
TODO: ~300 słów — funkcja Projects: upload raz, odwołuj wiele razy. RAG retrieval vs pełne ładowanie kontekstu. Do umów, brand guides, raportów.
15. Standaryzuj prompty (partial caching)
TODO: ~250 słów — Anthropic's partial caching na podobnych promptach. Utrzymaj stabilną bibliotekę promptów, wymieniaj zmienne części. Przykładowy szablon.
16. Wispr Flow / voice input dla bogatszych promptów
TODO: ~200 słów — kontrintuicyjne: mówienie = więcej kontekstu na starcie = mniej iteracji = mniej tokenów. Narzędzie: Wispr Flow.
🎯 Tipy specyficzne — Claude
TODO: ~500 słów — Extended thinking (kiedy warto/kiedy nie), dyscyplina CLAUDE.md (<200 linii / 2 000 tokenów), /rewind jako nawyk #1 Anthropic, /compact vs /clear i metoda Nate'a, 5-godzinne okno dla Pro, Artifacts — plan w chat, twórz w artifacts.
🎯 Tipy specyficzne — ChatGPT
TODO: ~500 słów — GPT-4o mini jest często wystarczający (10× tańszy), różnice context window między modelami, Memory feature (zostawić czy wyłączyć), Custom Instructions — stały kontekst bez tokenów, Structured output, Vision: zrzuty ekranu 1000×1000 = ~1 300 tokenów — cropuj!
🎯 Tipy specyficzne — Gemini
TODO: ~400 słów — 1M context window dla dużych dokumentów, Gemini 2.5 Flash ($0,075/1M — najtańszy premium), code execution i search w cenie, AI Studio vs Gemini app — różne limity.
🛠 Narzędzia, które pomagają
TODO: ~450 słów — lista narzędzi: iletokenow.pl (nasz licznik, screenshot + link), Optymalizator promptów (nasz, bezpłatny), Docling (konwersja PDF/DOCX→Markdown), Wispr Flow (voice-to-text), Anthropic's token counting API, OpenAI tiktokenizer, dashboardy kredytów.
💡 Zacznij od licznika
📚 Źródła i podziękowania
TODO: ~200 słów — podziękowania i linki do: Ruben Hassid "How to stop hitting Claude usage limits", Nate Herk "How to Never Hit Your Claude Limit Again", Anthropic docs, OpenAI docs, nasze dane z korpusu OPUS-100.
❓ Najczęściej zadawane pytania
Czy tipy działają tak samo dla darmowych kont?▾
Większość tipów działa na każdym planie. Tipy dotyczące /compact i sub-agentów wymagają planu Pro lub dostępu przez API.
Jak dużo realnie zaoszczędzę stosując te tipy?▾
Zależy od stylu pracy. Najczęstszy efekt po wdrożeniu 3–5 tipów to 40–70% mniej tokenów miesięcznie. Samo przełączenie na tańszy model do prostych zadań często daje 50–60% oszczędności bez żadnej zmiany w jakości.
Które tipy dają największe oszczędności?▾
Największy efekt dają: (1) konwersja plików do Markdown — do 70% mniej tokenów, (2) wybór tańszego modelu — do 15× mniej, (3) edytowanie zamiast follow-upów — do 13× mniej w długich sesjach.
Czy ChatGPT Plus ma ukryte limity tokenów?▾
Tak. ChatGPT Plus nie oferuje nieograniczonego dostępu — Twoja pula wiadomości i tokenów jest limitowana w 3-godzinnych oknach. Dokładne limity OpenAI nie podaje oficjalnie, ale doświadczeni użytkownicy szacują ~40–50 wiadomości z GPT-4o co 3 godziny.
Dlaczego Claude ma 5-godzinne okno?▾
Anthropic stosuje "rolling window" — Twój budżet tokenów odnawia się stopniowo w 5-godzinnym oknie, nie resetuje o północy. To oznacza, że intensywne używanie przez 5 godzin z rzędu uderzy w limit, ale po przerwie budżet się odnawia.
Czy tłumaczenie na angielski zawsze się opłaca?▾
Tak, jeśli model i tak zwraca wyniki po polsku. Prompt po angielsku = 30–52% mniej tokenów wejściowych. Jeśli potrzebujesz odpowiedzi po polsku, dopisz do promptu: "Respond in Polish."
Jak mierzyć swoje zużycie tokenów?▾
Użyj naszego licznika tokenów na iletokenow.pl do wyceny promptów przed wysłaniem. Do monitorowania historycznych kosztów: OpenAI Usage Dashboard (platform.openai.com), Anthropic Console (console.anthropic.com), Google AI Studio.
Czy subskrypcja vs API jest bardziej opłacalna?▾
Dla użytkowników indywidualnych (<200K tokenów/mies.): subskrypcja jest tańsza. Dla firm (>500K tokenów/mies.): API z optymalizacją modelu jest zwykle tańsze. Granica jest różna dla każdego modelu — sprawdź nasze porównanie cen.
Co robić, kiedy osiągnę limit?▾
Kilka opcji: (1) Poczekaj na odnowienie (Claude: 5h, ChatGPT: 3h). (2) Przejdź tymczasowo na tańszy model. (3) Kontynuuj przez API (nie ma limitów RPM, tylko billing). (4) Zastosuj technikę session chaining — skompresuj kontekst i zacznij nową sesję.
Czy te tipy będą aktualne za rok?▾
Zasady oszczędzania tokenów (mniejszy kontekst, tańszy model do prostych zadań, konwersja formatów) są fundamentalne i przetrwają kolejne generacje modeli. Konkretne narzędzia i ceny zmienią się, ale aktualizujemy poradnik co kwartał.
Podsumowanie
TODO: ~250 słów — 3 najważniejsze tipy, od czego zacząć w tym tygodniu, link do licznika tokenów, zachęta do udostępnienia poradnika.
🔑 Trzy tipy na start
Jeśli możesz wdrożyć tylko trzy rzeczy w tym tygodniu:
1. Konwertuj PDFy do Markdown przed uploadem.
2. Używaj przycisku Edit zamiast pisać "zrób to jeszcze raz".
3. Testuj GPT-4o mini / Claude Haiku 4.5 do prostych zadań.
Znalazłeś błąd lub masz tip do dodania? Napisz do nas — poradnik jest żywym dokumentem.