KOMPLETNY PORADNIK

Jak oszczędzać tokeny w AI

Zacznij od 12 prostych zasad. Pobierz darmową checklistę PDF i wracaj do niej zawsze, gdy AI odpowiada zbyt długo, zbyt ogólnie albo wymaga zbyt wielu poprawek.

  • 12 zasad pracy z AI
  • przykłady słabszych i lepszych promptów
  • prosty wzór dobrego prompta
  • krótkie podsumowanie do codziennej pracy

PDF możesz zapisać, wydrukować albo wysłać zespołowi.

iletokenow.pl

12 zasad, żeby zużywać mniej tokenów

1Ogranicz kontekst
2Dobierz model do zadania
3Proś o konkretny format
4Edytuj zamiast follow-upów
5Zaczynaj nowy chat

+ 7 kolejnych zasad...

13 stron · PDF · Darmowy

12 zasad oszczędzania tokenów

Jeśli nie chcesz czytać całego poradnika, zacznij tutaj. Te zasady wystarczą, żeby pisać krótsze prompty, dostawać lepsze odpowiedzi i ograniczać niepotrzebny koszt.

Zasada 1 Zacznij tutaj

Dobierz model do zadania

Nie używaj najmocniejszego modelu do prostych rzeczy.

Oszczędność: wysoka

Trudność: łatwe

Najlepsze do: podsumowań, formatowania, prostych maili

Działa w: ChatGPT / Claude / Gemini

Zasada 2 Zacznij tutaj

Nie wrzucaj całych PDF-ów bez potrzeby

Wysyłaj tylko fragment, którego naprawdę potrzebujesz.

Oszczędność: wysoka

Trudność: łatwe

Najlepsze do: umów, ofert, raportów

Działa w: ChatGPT / Claude / Gemini

Zasada 3 Zacznij tutaj

Pisz, jaki wynik chcesz dostać

Im bardziej konkretny format, tym krótsza odpowiedź.

Oszczędność: wysoka

Trudność: łatwe

Najlepsze do: briefów, maili, list kontrolnych

Działa w: ChatGPT / Claude / Gemini

Wprowadzenie

Nie musisz liczyć tokenów ręcznie ani znać API.

W praktyce oszczędzanie tokenów oznacza prostą rzecz: dajesz AI mniej niepotrzebnego tekstu i prosisz o bardziej konkretną odpowiedź.

Ten poradnik pokaże Ci, jak to robić w ChatGPT, Claude i Gemini.

💡 Zanim zaczniesz

Wklej swój typowy prompt do licznika tokenów i porównaj wynik po wdrożeniu kilku zasad.

Jak działają tokeny

Tokeny są jak licznik tekstu.

Im więcej tekstu wysyłasz do AI i im dłuższą odpowiedź dostajesz, tym więcej tokenów zużywasz.

Nie musisz znać dokładnej liczby tokenów. Wystarczy pamiętać: mniej niepotrzebnego tekstu = niższy koszt.

Zanim przejdziemy do konkretnych technik oszczędzania, musisz zrozumieć dwie rzeczy. Po pierwsze: co to jest token i jak AI go przetwarza. Po drugie - i to jest ważniejsze - jak kolejne wiadomości w jednej sesji kumulują swój koszt w sposób, który większość użytkowników całkowicie ignoruje.

Analogia: wyobraź sobie, że budujesz coś z klocków Lego. Każdy klocek to token. AI nie buduje ze słów - buduje z tokenów. Jedno polskie słowo może okazać się nie jednym klockiem, tylko pięcioma.

Co to jest token

Token to najmniejsza jednostka tekstu, jaką przetwarza model językowy. Może być całym słowem, fragmentem słowa, pojedynczym znakiem interpunkcyjnym albo spacją - zależy od algorytmu tokenizacji konkretnego modelu.

Wszystkie duże modele - GPT-4o, Claude, Gemini - używają wariantu algorytmu BPE (Byte-Pair Encoding). BPE analizuje ogromny korpus tekstu i buduje słownik "par bajtów": najczęstsze sekwencje znaków dostają własny, unikalny token. Rzadkie sekwencje są dzielone na mniejsze fragmenty.

Efekt praktyczny dla języka polskiego: weźmy słowo nieprzygotowywałbym się. Dla tokenizera GPT-4o to aż 8 tokenów - ta forma fleksyjna jest na tyle rzadka w korpusie treningowym, że nie ma własnej reprezentacji. Dla kontrastu: "unprepared" = 1 token. "impossible" = 1 token.

Angielskie słowa są statystycznie częstsze w danych treningowych, bo internet jest w większości po angielsku. Każda popularna angielska kolokacja ma dedykowany token. Polskie odmiany przez 7 przypadków, 3 rodzaje, czas i aspekt - to tysiące unikalnych form, z których każda pojawia się rzadziej i jest dzielona na więcej sub-tokenów.

Koszt zapytania do AI nie liczy się w słowach, znakach ani linijkach. Liczy się w tokenach. Więcej tokenów - więcej do zapłacenia. Sprawdź tokenizację dowolnego tekstu w naszym kalkulatorze tokenów - zobaczysz dokładne liczby dla GPT-4o, Claude i Gemini jednocześnie.

Jak AI liczy tekst - efekt kumulowania

Teraz najtrudniejsza do przełknięcia prawda o tym, jak AI przetwarza Twoje wiadomości. Kiedy wysyłasz kolejną wiadomość do chatbota, model nie widzi tylko Twojego nowego pytania. Widzi całą historię konwersacji - każdą Twoją wiadomość i każdą odpowiedź modelu od samego początku sesji. Za każdym razem. Od początku.

Mechanika wygląda tak: wiadomość 1 - AI czyta tylko wiadomość 1, powiedzmy 500 tokenów. Wiadomość 2 - AI czyta wiadomość 1 + odpowiedź 1 + wiadomość 2: już ok. 2 000 tokenów. Wiadomość 10 - AI czyta całą historię: ok. 10 000 tokenów. Wiadomość 30 - AI czyta wszystkie 30 wiadomości i 30 odpowiedzi: ok. 15 500 tokenów.

Jak wylicza Nate Herk w swojej analizie sesji Claude Code: wiadomość numer 30 kosztuje 31 razy więcej niż wiadomość numer 1. W długich sesjach (100+ wiadomości) aż 98,5% przetwarzanych tokenów to samo ponowne czytanie starej historii - nie generowanie nowych, wartościowych odpowiedzi.

Efekt kumulowania tokenów – liczba wiadomości w rozmowie vs. całkowity koszt tokenów

Wiadomość #30 w długiej rozmowie kosztuje tyle, co 31 oddzielnych konwersacji

To jest właśnie efekt kumulowania. Dlatego płacisz za AI więcej, niż powinieneś - nie dlatego, że piszesz za dużo nowych rzeczy, ale dlatego, że model ciągnie za sobą coraz cięższy ogon przeszłości. Każda optymalizacja opisana w tym poradniku adresuje ten problem z innej strony: Tip 3 (edytuj zamiast follow-up) skraca ogon, Tip 4 (nowy chat dla nowego tematu) zeruje go, Tip 11 (ręczny compact przy 60%) kompresuje go zanim stanie się problemem.

💡 Compound effect każdej optymalizacji

Każda technika z tego poradnika działa proporcjonalnie do długości Twojej sesji. Jedna drobna zmiana nawyku - np. edytowanie zamiast follow-upów - oszczędza nie 5%, ale 30-90% tokenów w skali tygodnia. Dlatego warto wdrażać nawet "małe" tipy.

Dlaczego polski kosztuje więcej

Polski tekst zużywa średnio o 52% więcej tokenów niż jego angielski odpowiednik - dla identycznego znaczenia. Sprawdziliśmy to na 5 000 par zdań z badań porównawczych, równoległego zbioru zdań w 100 językach.

ℹ️ Nasza analiza: 5 000 par zdań PL/EN

Zmierzyliśmy liczbę tokenów dla każdej pary zdań (ten sam tekst po polsku i po angielsku) przy użyciu tokenizera GPT-4o (o200k_base), GPT-4 Turbo (cl100k_base) i Llama 3 (SentencePiece). Mediana stosunku PL/EN: GPT-4o: 1,48× · GPT-4 Turbo: 1,62× · Llama 3: 1,54×. Mediana ze wszystkich tokenizatorów: 1,52×.

Dlaczego tak jest? Tokenizery BPE są trenowane statystycznie - częste sekwencje znaków dostają własny token, rzadkie są dzielone na mniejsze fragmenty. Korpusy treningowe dużych modeli to w ponad 90% angielski i inne języki zachodnie. Efekt: "the" ma własny token, "the" ze spacją ma inny, każda popularna angielska kolokacja jest skompresowana efektywnie.

Polski? Odmiana przez 7 przypadków, 3 rodzaje, liczba, czas, aspekt, prefiksy i sufiksy - to tysiące unikalnych form gramatycznych. Każda z nich to rzadka sekwencja w danych treningowych, dzielona na więcej sub-tokenów. Dołóż do tego diakrytyki (ą, ć, ę, ł, ń, ó, ś, ź, ż) kodowane w UTF-8 jako 2 bajty każdy - co często generuje osobny token dla samego znaku.

Co to oznacza finansowo? Firma wysyłająca przez API 1 000 promptów dziennie po 500 polskich tokenów każdy płaci miesięcznie za ok. 15 mln tokenów wejściowych - przy cenach GPT-4o to ok. 37,50 zł. Ten sam content po angielsku to ok. 10 mln tokenów = 24,75 zł. Różnica na samym wejściu: 13 zł. Ale tokeny wyjściowe kosztują 4-5× drożej i też są po polsku - realna różnica w tym przykładzie to 40-60 zł miesięcznie. Przy dziesięcioosobowym zespole: 400-600 zł rocznie tylko z tytułu języka.

Dwie strategie wyjścia z tej pułapki: pisz instrukcje i prompty po angielsku gdy możesz (szczególnie system prompts i powtarzalne szablony), albo korzystaj z tańszych modeli do zadań, gdzie precyzja polszczyzny nie jest krytyczna. Jeśli nie ufasz swojemu angielskiemu, nasz Optymalizator zrobi tłumaczenie za Ciebie - darmowo, bez rejestracji.

📌 Szybkie tipy (dla każdego)

To są tipy, które możesz wdrożyć od dziś. Żadnych zaawansowanych konfiguracji, żadnych zmian narzędzi. Tylko zmiana nawyków, która daje pierwsze rezultaty w 48 godzinach.

Dziesięć technik ułożonych od największego impactu (tipy 1-3) do mniejszych, ale ważnych szczegółów (tipy 8-10). Jeśli masz mało czasu - przerób tylko pierwsze trzy. Każdy z nich może samodzielnie obniżyć miesięczny rachunek o 20-40%.

Większość pochodzi z bezpłatnego poradnika Rubena Hassida "How to stop hitting Claude usage limits". Oddaję mu to, co jego - nie odkrywam Ameryki, tłumaczę i adaptuję dla polskiego rynku.

1. Wybierz właściwy model do zadania

Claude Haiku 4.5 kosztuje 15× mniej niż Opus 4.7. Dla 80% codziennych zadań robi tę samą pracę. Większość ludzi tego nie wie - albo wie, ale ma uprzedzenie "flagship = lepszy". To uprzedzenie kosztuje setki złotych miesięcznie.

Ruben Hassid formułuje to jako zasadę "right tool for the job". Nie wozisz jednej paczki Fordem Mustangiem. Nie kasujesz formatowania bullet pointów Opusem. Każdy model ma swoją strefę optymalności:

Klasa modeluCena (input)Typowe zadania
Lekkie
Haiku / GPT-4o mini / Gemini Flash
$0,075-1 / 1MReformatowanie, brainstorming, proste pytania, tłumaczenia, streszczenia krótkich tekstów
Średnie
Sonnet / GPT-4o / Gemini Pro
$1,25-3 / 1MPost z briefem, e-mail do klienta, analiza tabeli, struktura dokumentu, korekta długich tekstów
Premium
Opus 4.7 / GPT-o3
$10-15 / 1MZłożone decyzje strategiczne, debug skomplikowanego kodu, analiza prawna, architektura systemu

"30-second answer doesn't need Opus" - to dosłowne zdanie z poradnika Rubena. Jeśli pytanie zaczyna się od "co znaczy", "skróć ten tekst", "przeformatuj listę" - przełącz na lekki model. Zaoszczędzisz 90% kosztu za odpowiedź, której jakości i tak nie zauważysz. Przykład: post na LinkedIn z 200-słownym briefem. Opus 4.7: ok. 0,15 USD za post. Haiku 4.5: ok. 0,01 USD. Różnica w jakości w testach blind - niezauważalna. W skali 30 postów miesięcznie przy 5-osobowym zespole to kilkaset złotych rocznie z jednego nawyku.

💡 Zacznij od tańszego, upgraduj tylko gdy trzeba

Domyślnie odpalaj najtańszy model. Upgraduj do Opus lub GPT-4o dopiero gdy widzisz, że lekki model się myli lub nadmiernie upraszcza. Większość ludzi robi odwrotnie - defaultują na flagship i nigdy nie testują, czy tańszy wystarczy. To najdroższy default w branży AI. Ile tokenów zje Twój prompt w każdym modelu? Sprawdź w liczniku i porównaj trzy modele jednocześnie.

2. Konwertuj pliki do Markdown przed uploadem

Te liczby pochodzą z analizy Nate'a Herka i dotyczą tej samej treści w różnych formatach:

  • HTML → Markdown: ~90% mniej tokenów
  • PDF → Markdown: ~65-70% mniej tokenów
  • DOCX → Markdown: ~33% mniej tokenów

Konkretnie: 40-stronicowy PDF zajmuje tyle samo tokenów co 130-stronicowy Markdown z identyczną treścią. To nie błąd drukarki - 130 stron Markdown za cenę 40 stron PDF. PDF i DOCX to kontenery pełne metadanych: czcionki, marginesy, layout, embedded fonty, struktury XML. AI musi przetworzyć te wszystkie bajty zanim dotrze do treści. Markdown to czysty tekst z minimalną strukturą - nagłówki, pogrubienie, listy. Brak balastu = dramatycznie mniej tokenów.

Względna liczba tokenów wg formatu pliku (Markdown = punkt odniesienia)
PDF
100%
DOCX
67%
HTML
55%
Markdown
35%

Konwersja PDF → Markdown zmniejsza liczbę tokenów o ~65–70%

Trzy sposoby konwersji od najszybszego:

1. Docling (docling.ai) - open source CLI, świetny dla PDF z tabelami, działa offline, prywatne dokumenty zostają u Ciebie:

bash
pip install docling
docling convert raport.pdf -o raport.md

2. Pandoc - Swiss Army knife konwersji, obsługuje DOCX, RTF, ODT i dziesiątki innych formatów:

bash
pandoc raport.docx -o raport.md
pandoc strona.html -o strona.md

3. doc.new trick z poradnika Rubena: wklej treść do Google Docs, następnie File → Download → Markdown (.md). Działa bez instalacji, bezpośrednio z przeglądarki.

💡 Wyjątek: OCR i analiza wizualna

Jeśli plik zawiera skany (bez warstwy tekstowej), wykresy lub diagramy, których znaczenie tkwi w obrazie - zostaw oryginał. AI musi "zobaczyć" piksele, żeby je zinterpretować. Dla wszystkich dokumentów tekstowych - raporty, kontrakty, artykuły, dokumentacja techniczna - Markdown wygrywa zawsze.

3. Edytuj wiadomości zamiast wysyłać korekty

20 wiadomości follow-up w jednym wątku = ~105 000 skumulowanych tokenów. 20 edytów tej samej wiadomości = ~8 000 tokenów. Różnica: 13×. Za ten sam efekt końcowy. Ruben Hassid nazywa to swoim "tip #1" - nie ma drugiego pojedynczego nawyku, który tak dramatycznie obniża rachunek przy zerowym wysiłku.

Mechanika: każde follow-up dokłada nową wiadomość do kontekstu. AI przy każdej odpowiedzi czyta całą historię od początku - efekt kumulowania opisany w sekcji Jak AI liczy tekst. Edit usuwa poprzednią wersję Twojej wiadomości i zastępuje ją nową. Historia konwersacji nie rośnie - model generuje odpowiedź na aktualnej wersji promptu zamiast pisać reakcję na "nie tak, popraw".

Jak edytować w popularnych narzędziach:

  • ChatGPT: najedź kursorem na swoją wiadomość → ikona ołówka → edytuj tekst → "Send"
  • Claude.ai: kliknij swoją wiadomość → pole staje się edytowalne → zmień treść → "Submit"
  • Gemini: ikona ołówka po prawej stronie bańki wiadomości

💡 Edit czy follow-up - jak decydować

Edytuj gdy: zmieniasz ton, dodajesz lub usuwasz wymagania, poprawiasz literówkę w prompcie, doprecyzowujesz zadanie, zmieniasz kierunek. Pisz follow-up gdy: budujesz coś krok po kroku ("teraz dodaj sekcję X") albo AI ma na podstawie swojej poprzedniej odpowiedzi zrobić następny krok. W praktyce 80% korekt to przypadki, gdzie edit jest właściwy. Zmień ten default.

4. Nowy chat dla nowego tematu

Wyobraź sobie restaurację, w której jeden kelner obsługuje wszystkie stoliki w mieście. Za każdym razem, gdy ktoś zamawia kawę, kelner musi przypomnieć sobie wszystkie zamówienia, jakie kiedykolwiek przyjął - bo "może coś się powtarza". To absurd. Tak działa Twój chat z AI, kiedy masz w nim 20 niezwiązanych tematów: copy do firmy, debugowanie kodu, pomysły na urodziny szwagierki, tłumaczenia z niemieckiego. AI musi czytać wszystko za każdym razem. Płacisz za każdy ten kontekst.

Z analizy Nate'a Herka sesji 100+-wiadomościowych: 98,5% tokenów to ponowne czytanie historii. Nie generowanie nowych odpowiedzi. Tylko model "przypominający sobie", co już było. Klikalna decyzja: jeśli nowe pytanie nie potrzebuje niczego z poprzednich 5 wiadomości - odpal nowy chat. To kosztuje 0 zł i 2 sekundy.

  • Źle: chat "Praca", w którym miesza się copywriting, kod, podsumowania, tłumaczenia i brainstormingi
  • Dobrze: osobne chaty: "Copy - Q2 kampania 2026", "Bug - autoryzacja Stripe", "Tłumaczenia EN→PL - newsletter", "Brainstorm - feature roadmap H2"

Zarządzasz workspace'em, nie bezładną chronologią. Sprawdź w liczniku - wklej swój ostatni długi chat jako tekst i zobacz, ile tokenów zjada sama historia. Pomnóż razy liczbę interakcji w tym chacie.

5. Skracaj prompty przez "Zadaj mi pytania"

Każdy poradnik prompt engineeringu uczy: "im więcej kontekstu, tym lepiej". Pisz rolę AI, opisz audience, zdefiniuj ton, podaj przykłady, określ format wyjścia, dodaj ograniczenia. Typowy "dobry" prompt to 300-500 słów. Każde z tych słów to token. Co gorsza - AI i tak często źle zrozumie któryś niuans, więc wracasz z follow-upami. Każdy kompounduje koszt (patrz Tip 3).

Ruben Hassid w swoim poradniku promuje wzorzec 30 słów:

I want to [task] to achieve [success criteria].
Read my folder / attached context.
Ask me questions before you start.

Polski odpowiednik:

Chcę [zadanie] tak, żeby [kryterium sukcesu].
Przeczytaj kontekst, który załączyłem.
Zadaj mi pytania zanim zaczniesz.

AI zadaje 3-5 kluczowych pytań: "formalny czy casualowy ton?", "długość: krótka, średnia czy długa?", "audience: B2B czy B2C?". Klikasz opcje lub odpowiadasz jednym słowem. To kosztuje 5-10 tokenów per odpowiedź zamiast 50-100 tokenów za napisany paragraf z detalem. 3× mniej tokenów per zadanie przy lepszej precyzji - bo AI sam wie, czego mu brakuje.

💡 Różnice między modelami

Ten wzorzec działa najlepiej z Claude - ma natywne wsparcie dla narzędzia AskUserQuestion wbudowanego w Anthropic API. W ChatGPT zadziała przez prompt - AI zada pytania w odpowiedzi tekstowej, Ty odpowiadasz krótko. W Gemini: eksperymentuj z "MUST ask me questions first" zamiast "ask me questions", bo Gemini częściej skacze od razu do generowania.

6. Batch zadania w jednej wiadomości

Każda wiadomość powoduje "reload" całego kontekstu - AI czyta wszystko od nowa, generuje odpowiedź, odsyła. Jeśli rozbijasz 3 powiązane zadania na 3 osobne prompty, 3× płacisz za reload tej samej historii.

// Źle - trzy oddzielne wiadomości na tym samym artykule:
1. "Streść ten artykuł."
   → AI czyta artykuł, odpowiada
2. "Wypisz kluczowe punkty."
   → AI czyta artykuł + poprzednia odpowiedź, odpowiada
3. "Zaproponuj nagłówek."
   → AI czyta artykuł + całą historię, odpowiada

// Dobrze - jedna wiadomość:
"Przeczytaj artykuł i daj mi:
(1) streszczenie 3-zdaniowe,
(2) listę 5 kluczowych punktów,
(3) trzy propozycje nagłówka."
→ AI czyta artykuł raz, odpowiada na wszystko jednocześnie

Oszczędność: ok. 60% tokenów. Ten sam output. Często lepszy - bo AI widzi powiązanie między zadaniami i syntetyzuje całościowo.

💡 Kiedy nie batchować

Nie łącz zadań zależnych, gdzie wynik jednego warunkuje następne. Np. "Zaproponuj 5 tematów → wybierz najlepszy → napisz post." Tutaj AI musi zobaczyć opcje zanim wybierze. Lepiej: batch zadań 1+2 razem, potem follow-up dla zadania 3 po Twoim zatwierdzeniu.

7. Bądź precyzyjny ze scope

Najczęstszy zbędny token sink: ogólne polecenia po długiej rozmowie. Pisałeś z AI artykuł przez godzinę. 5 000 słów gotowych. Coś Ci nie pasuje. Wpisujesz: "Popraw to." AI traktuje to jak "zregeneruj cały dokument" - czyta 5 000 słów, przepisuje 5 000 słów. Koszt: ok. 6 000 tokenów output. Zmieniłeś jedno zdanie, zapłaciłeś za przepisanie wszystkiego.

Dlatego ważna jest wiedza ekonomiczna: tokeny wyjściowe kosztują 3-5× więcej niż wejściowe.

ModelInput ($/1M)Output ($/1M)Stosunek
GPT-4o$2,50$10,00
Claude Opus 4.7$15,00$75,00
Gemini 2.5 Pro$1,25$5,00

Zawsze nazywaj fragment, który chcesz zmienić:

// Źle:
"Popraw to."
"Zmień styl."
"Wszystko przepisz."

// Dobrze:
"Popraw tylko trzeci akapit - zbyt formalny ton."
"W sekcji 'Cennik' zmień ton na bardziej formalny. Reszta zostaje."
"Tylko nagłówek H2 nad sekcją 'Cennik' - przepisz na dynamiczniejszy."

AI generuje tylko to, o co prosisz. Pozostałe sekcje zostają nienaruszone. To samo dotyczy plików kodu - "popraw funkcję X" zamiast "popraw plik".

💡 Scope + Edit = compound oszczędność

Ten tip działa najlepiej razem z Tip 3 - Edit zamiast follow-up. Edytuj poprzednią wiadomość ze szczegółowym scope zamiast wysyłać follow-up "popraw to". Efekt złożony: mniej tokenów w historii i mniejszy output naraz.

8. "No commentary. Just the output."

Domyślne zachowanie ChatGPT, Claude i Gemini wygląda mniej więcej tak:

Świetne pytanie! Zanim napiszę odpowiedź, chciałbym podkreślić,
że temat ten jest dość złożony i istnieje kilka aspektów,
które warto rozważyć...

[właściwa odpowiedź - 200 słów]

Mam nadzieję, że to pomoże! Daj znać, jeśli potrzebujesz
dalszych wyjaśnień lub chcesz zgłębić któryś aspekt.

Preambuła i postambuła to 80-150 dodatkowych słów. Razem 120-200 niepotrzebnych tokenów per odpowiedź. Przy 50 promptach dziennie × 30 dni × 150 tokenów = 225 000 tokenów miesięcznie na samych uprzejmościach. Dla GPT-4o output to ok. 2,25 USD/mies na jeden profil. Przy zespole 10 osób: ok. 270 USD rocznie bez żadnej wartości.

Wyłącz to jednym zdaniem dopisanym do każdego promptu:

// Po angielsku (efektywniejsze tokenowo):
No commentary. Just the output.

// Po polsku:
Tylko wynik. Bez komentarzy, podsumowań ani pytań na końcu.

💡 Ustaw raz - działa dla wszystkich chatów

Lepiej niż dopisywać do każdego promptu - skonfiguruj systemowo. W ChatGPT: Custom Instructions (Settings → Personalization). W Claude: Projects lub System Prompt w API. W Gemini: Gems. Więcej szczegółów w sekcji Tipy dla ChatGPT i Tipy dla Claude niżej.

9. Plan w Chat, buduj w Cowork / Code

Ruben Hassid w swoim poradniku dzieli AI workflow na dwie oddzielne fazy. Plan - w zwykłym czacie (claude.ai, chat.openai.com): brainstorming, strukturyzacja pomysłu, szybka iteracja na koncepcji, tania wymiana krótkich wiadomości. Build - w narzędziach produktowych (Cowork, Claude Code, ChatGPT Canvas): generowanie artefaktów - dokumenty, kod, arkusze - w środowisku zoptymalizowanym pod długi output. Mieszanie tych faz w jednym narzędziu oznacza płacenie output-heavy cen za każdy token planowania.

Przykład z poradnika Rubena - model finansowy w Excelu. Źle: wpisujesz "Zrób mi model finansowy 24-miesięczny dla SaaS" w ChatGPT. AI generuje 5 000 tokenów opisu modelu - i tak musisz to ręcznie wkleić do Excela. Koszt outputu: ok. $0,50. Dobrze: plan w Chat ("Daj mi strukturę: 5 arkuszy, 12 metryk, formuły kompoundowania" - ok. 1 500 tokenów, $0,02), potem build w Cowork - Claude tworzy plik .xlsx do pobrania ($0,15). Łączna różnica: ok. 67% mniej.

Drugi przykład - 20 postów LinkedIn na miesiąc. Źle: w Chat pisz jeden, AI odpowiada, pisz "kolejny", AI odpowiada - 20 reloadów kontekstu kompoundującego się od pierwszego postu. Przy poście #20 masz ok. 50 000 tokenów kontekstu za jeden post. Dobrze: plan w Chat (tematy, hooks, calendar), build w Cowork - wszystkie 20 jako batch w jednym artefakcie .md, gotowym do importu do Notion lub Buffer. Oszczędność: 80%+ tokenów i spójna stylistyka całej serii.

💡 Chat to taksówka. Cowork to ciężarówka.

Jeśli output ma trafić do dokumentu, kodu lub pliku - buduj w narzędziu produktowym (Cowork, Claude Code, Canvas). Jeśli rozmawiasz, pytasz, brainstormujesz - zostań w Chat. Więcej o tym, jak Artifacts w Claude wpisują się w ten framework, w sekcji Tipy dla Claude niżej.

10. Wyłącz funkcje, których nie potrzebujesz

Każda włączona funkcja AI dodaje tokeny do kontekstu - jeszcze zanim napiszesz pierwszą wiadomość. Domyślnie aktywne w wielu narzędziach:

  • Web search - system prompty narzędzia i ewentualne wyniki wyszukiwania: 1 000-5 000 tokenów per zapytanie
  • Connectors (Google Drive, GitHub, Kalendarz) - instrukcje każdego narzędzia: ok. 500-2 000 tokenów startowych, nawet gdy ich nie używasz
  • Extended thinking w Claude - generuje niewidoczne tokeny myślenia, które są naliczane do rachunku
  • Memory w ChatGPT - wszystkie Twoje zapisane preferencje wstrzykiwane do każdej rozmowy
// Strategia: default = wszystko OFF, włącz per zadanie

ChatGPT:  ikony narzędzi pod polem tekstowym → odznacz nieużywane
Claude:   Settings → Features → wyłącz nieużywane connectors
Gemini:   Tools menu w Gemini Advanced

Research / fact-checking     → włącz Web search
Praca z plikami w Drive      → włącz Google Drive connector
Złożona analiza wieloetapowa → włącz Extended thinking
Reszta zadań                 → wyłączone, tańsze, szybsze

💡 Claude Code: 62 000 tokenów zanim zaczniesz

Nate Herk zmierzył, że samo uruchomienie wszystkich MCP serwerów w Claude Code może zjeść 62 000 tokenów startowych - zanim wpiszesz pierwszą wiadomość. To poziom optymalizacji "advanced". Pełne omówienie strategii CLAUDE.md i selektywnego włączania narzędzi per projekt znajdziesz w sekcji Zaawansowane tipy.

🧠 Zaawansowane tipy (dla power users)

Te tipy są dla kogoś, kto korzysta z AI 3+ godzin dziennie. Wymagają większej dyscypliny niż wcześniejsze, ale dają dramatyczne oszczędności w skali miesiąca.

Większość pochodzi z poradnika Nate'a Herka "How to Never Hit Your Claude Limit Again" - dokumentu wewnętrznego społeczności AIS Plus. Nate przeanalizował tysiące sesji Claude Code i wyciągnął zasady, które zmieniają sposób, w jaki używasz AI w długich projektach. Tipy 11, 12 i 13 są wprost z jego analizy.

Jeśli używasz Claude Code do programowania, GPT-4 do złożonych zadań analitycznych albo Gemini Pro do dużych dokumentów - te tipy są dla Ciebie. Jeśli ChatGPT Plus służy Ci głównie do pisania emaili, poprzednie 10 tipów w zupełności wystarczy.

11. Ręczny compact przy 60%, nie czekaj na 95%

Nate Herk twierdzi, że to najważniejszy zaawansowany tip dla użytkowników Claude Code i podobnych narzędzi z długimi sesjami. Cytuję dosłownie:

"Manual compact at ~60% through the window always beats waiting for auto compaction."

To nie jest "fajne ulepszenie". To fundamentalna zmiana sposobu, w jaki zarządzasz długimi sesjami - bezpośrednia konsekwencja efektu kumulowania opisanego w sekcji Jak AI liczy tekst. Auto-compaction włącza się przy ~95% kontekstu - i to jest zdecydowanie za późno.

Co się dzieje przy auto-compact? Model zachowuje tylko 20-30% oryginalnego detalu - kompaktuje w swoim najgorszym punkcie, kiedy degradacja jest szczytowa. Nate nazywa to peak context rot. Twarde dane z analizy Nate'a (18 000 bloków myślenia w 7 000 sesji):

  • Głębokość myślenia spada o 67% wraz z długością sesji
  • Edycje plików bez uprzedniego przeczytania rosną z 6% do 34%
  • Retrieval accuracy: 92% przy 256K tokenów → 78% przy 1M tokenów

Im dłuższa sesja, tym Claude leniwszy i mniej dokładny. Czekanie na auto-compact to pozwolenie modelowi decydować o tym, co warto zachować - w chwili, gdy jest najgorzej do tego przygotowany.

Workflow ręcznego compaktu (Nate przestał używać /compact całkowicie):

// Przy ~60% kontekstu zapytaj Claude:
"Daj mi pełne podsumowanie wszystkiego, co zrobiliśmy,
i aktualny status tego, co chcemy zrobić dalej.
Uwzględnij: kluczowe decyzje, otwarte pytania, następne kroki."

// Skopiuj output do pliku session-notes.md
// Pełny workflow:
1. Wygeneruj podsumowanie (prompt wyżej)
2. Skopiuj do pliku (session-notes.md, decision-log.md)
3. Uruchom /clear  ← NIE /compact (Ty decydujesz co zachować)
4. Wklej podsumowanie jako pierwszą wiadomość nowej sesji:
   "Kontynuujemy projekt. Oto context z poprzedniej sesji: [...]"
5. Kontynuuj ze świeżym, czystym contextem + pełną wiedzą

⚠️ Auto-compact to nie Twój przyjaciel

Auto-compaction to safety net na wypadek, nie strategia optymalizacji. Im później pozwolisz modelowi kompaktować, tym gorzej zachowa Twój workflow - decyzja "co wyrzucić" należy do modelu w jego najgorszym punkcie. Bądź proaktywny: kompaktuj przy 60%, kiedy masz jeszcze kontrolę.

Supporting practice od Nate'a: trzymaj kluczowe dane w plikach - tracking sheets, decision logs, activity files. Wtedy /clear nie boli. State jest na dysku, nie tylko w historii konwersacji. Inną strategią obniżania zużycia kontekstu podczas sesji są sub-agenty- delegowanie ciężkich kawałków na boczne wątki z fresh context window.

12. Sub-agenty na tańszych modelach

Nate's analogy: sub-agenty to research interns.

"You don't watch them read 50 articles. You just want the summary."

Sub-agent dostaje zadanie, pracuje we własnym fresh context window, wykonuje zadanie samodzielnie i zwraca tylko wynik. Twoja główna sesja widzi podsumowanie, nie cały proces. To jak zatrudnienie stażysty do przeczytania 10 raportów branżowych - nie patrzysz, jak czyta każdą stronę. Czekasz na briefing.

// Bez sub-agenta (główna sesja Opus $15/$75 per 1M):
Opus ładuje 10 artykułów: ~200 000 tokenów input
Generuje podsumowanie:      +3 000 tokenów output
Total cost:                     ~$3,23
+ main context zaśmiecony 200K tokenami artykułów

// Z sub-agentem Haiku ($0,80/$4 per 1M):
Haiku ładuje 10 artykułów: ~200 000 tokenów (tańszy model!)
Generuje podsumowanie:         +1 000 tokenów
Cost sub-agenta:                   ~$0,16
Main session Opus: tylko ~1 000 tokenów summary
Kontekst głównej sesji: czysty

Oszczędność na tym zadaniu: ~95%

Jakie zadania delegować na tańszy model, co zostawić głównej sesji:

  • Deleguj (Haiku / GPT-4o mini / Gemini Flash): przeszukiwanie plików, summarization dokumentów, analiza tabel, tłumaczenia robocze, kategoryzowanie i tagowanie, sprawdzanie syntaktyki kodu
  • Zostaw głównej sesji (premium model): decyzje strategiczne na podstawie wyników, synteza między różnymi obszarami, złożone debugowanie, architektura i planowanie, krytyczne pisanie

Reguła kciuka: jeśli zadanie wymaga rozumienia całości projektu - zostaje w main. Jeśli wymaga przerobienia dużej ilości materiału do destylatu - idzie do sub-agenta.

Implementacja: w Claude Code użyj wbudowanego Task tool - uruchamia sub-agenta z własnym context window, możesz wskazać model (claude-haiku-4-5). Szczegóły w sekcji Tipy dla Claude. W Anthropic API: wywołaj messages.create z model: "claude-haiku-4-5" dla helper tasks. W ChatGPT / Gemini: brak natywnego feature - symuluj robiąc ciężki research w mini/Flash, kopiując wynik do głównej sesji.

13. Session chaining (discovery → planning → execution)

Kuszące jest robić duże projekty w jednej sesji - "Claude pamięta wszystko, więc wszystko będzie spójne". Problem: długa sesja to peak context rot. Pamiętaj benchmark z tipu 11: retrieval accuracy spada z 92% przy 256K tokenów do 78% przy 1M. W sesjach powyżej 500K tokenów Claude edytuje pliki bez ich uprzedniego przeczytania, myli się w identyfikacji wcześniejszych decyzji, zaczyna kontradyktować sam siebie. To nie jest hipotetyczne - to obserwowalne zachowania w długich projektach.

Nate Herk nazywa rozwiązanie assembly line i cytując go dosłownie: "treat them like an assembly line". Zamiast jednej gigantycznej sesji - trzy wyspecjalizowane, każda ze świeżym contextem:

// SESJA 1 - Discovery (tylko czytanie i analiza)
Input:  surowe pliki, PDFy, codebase, dokumentacja
Zadanie: zrozum co jest, zidentyfikuj decyzje i ograniczenia
Output: zapisz do discovery-summary.md
  → co projekt robi (architektura, zależności)
  → kluczowe decyzje, które podjęto wcześniej
  → co wymaga zmiany i dlaczego
// Zamknij sesję.

// SESJA 2 - Planning (tylko projektowanie)
Input:  wklej discovery-summary.md  ← NIE surowe pliki
Zadanie: stwórz plan implementacji
Output: zapisz do implementation-plan.md
  → konkretne kroki w kolejności
  → zależności między krokami
  → ryzyka i open questions
// Zamknij sesję.

// SESJA 3 - Execution (tylko budowanie)
Input:  wklej implementation-plan.md
Zadanie: zaimplementuj krok po kroku zgodnie z planem
// Nigdy nie wracaj do surowych plików - plan zawiera wszystko.

Realny przykład: rebuild tikando.com z WordPressa do Next.js. Sesja 1 (50K tokenów) - Claude przeczytał stary kod, zidentyfikował Avada theme + 12 pluginów, wypisał co trzeba odtworzyć. Output: 2-stronicowy discovery report. Sesja 2 (40K tokenów) - Claude na podstawie reportu zaplanował migrację: 8 stron, 5 komponentów React, 3 integracje, timeline. Sesja 3 (60K tokenów) - Claude zbudował aplikację zgodnie z planem, bez zgadywania co było w oryginale. Łącznie: 150K tokenów w 3 sesjach. Alternatywa "wszystko w jednej sesji": 500K+ tokenów, 40% szybszy compounding cost, znacznie więcej błędów w fazie execution - kiedy Claude już zapomniał decyzji z fazy discovery.

14. Użyj Projects z RAG (zamiast stackowania plików)

W odróżnieniu od tipu 4 (nowy chat = zero kontekstu), feature Projects w Claude i ChatGPT daje coś innego: "tło wiedzy" domyślnie dostępne bez kosztu re-uploadu w każdej sesji. Mechanizm to RAG (Retrieval-Augmented Generation) - zamiast ładować cały dokument do kontekstu, system wyszukuje tylko relevantne fragmenty semantycznie i dokłada je do promptu w tle. Model "zna Twoje dokumenty", ale w kontekście nie ma 200-stronicowej umowy - są 2-3 akapity wyciągnięte pod konkretne pytanie.

Idealne use cases dla Projects: brand guides i style guides (wgraj raz, każdy chat o copywritingu ma dostęp bez re-uploadu), umowy i regulaminy (RAG wyciągnie konkretny paragraf na pytanie "czy mogę sublicencjonować?"), dokumentacja techniczna produktu (pytania o API bez ładowania wszystkich plików). Mniej dobre dla Projects: pliki które zmieniają się co sesję (RAG może zwrócić stary fragment), bardzo krótkie konteksty poniżej 2 000 tokenów (overhead Projects nie opłaca się), one-off zadania które nie wrócą.

// Przykład: agencja używa 30-stronicowego brand guide przy każdym
// chacie o copywritingu klienta.

// BEZ Projects:
30 stron PDF                     = ~12 000 tokenów
50 chatów/mies × 12 000 tokenów  = 600 000 tokenów ładowania
Koszt (GPT-4o input):            ~ $1,50/mies  (sama duplikacja)

// Z Projects (RAG retrieval):
brand guide załadowany raz
50 chatów × ~800 tokenów relevantnych fragmentów = 40 000 tokenów
Koszt:                           ~ $0,10/mies

// Oszczędność: 93% na samej duplikacji kontekstu.

Konfiguracja per platforma: Claude.ai → Projects → Create Project → Add files / instructions (limit: 200 000 tokenów na projekt). ChatGPT → Sidebar → Projects (tylko Plus) → Create. Gemini Advanced → Gems (podobny koncept, inne ograniczenia). Więcej szczegółów o Projects w Claude w sekcji Tipy specyficzne - Claude.

💡 Custom Instructions w Projekcie = gwarancja aktywacji RAG

Dodaj Custom Instructions do Projektu - np. "Zawsze sprawdź brand guide przed odpowiedzią na pytania o tone of voice." To gwarantuje, że RAG retrieval będzie aktywowany dla każdego chatu, nawet jeśli użytkownik o nim zapomni. Bez tego instrukcja Claude może pominąć pliki projektowe, gdy pytanie nie brzmi jak referencja do dokumentu.

15. Standaryzuj prompty (partial caching)

Od 2024 roku Anthropic ma prompt caching, OpenAI ma automatic input caching. Oba działają na tej samej zasadzie: wysyłasz prompt ze stałą częścią (instrukcja systemowa, kontekst firmy, brand voice) i zmienną częścią (konkretne pytanie usera) - API rozpoznaje powtarzającą się część i cachuje ją, licząc ułamek normalnej ceny per token. Cache hit Anthropic: ~10% normalnej ceny (oszczędność 90%). Cache hit OpenAI: ~50% normalnej ceny (oszczędność 50%). Realny rachunek: stała część 5 000 tokenów × 50 zapytań/mies = 250 000 cached tokenów × 10% (Anthropic) = równowartość 25 000 normalnych tokenów. Oszczędność 90% na tej części.

// ════════════════════════════════════════════
// [STABLE] - cachuje się, ~5 000+ tokenów
// ════════════════════════════════════════════
Jesteś doświadczonym copywriterem B2B specjalizującym się
w branży SaaS. Piszesz zwięźle, konkretnie, bez ogólników
typu "rewolucyjny" czy "najlepszy na rynku".

[Brand voice context:  ~1 500 tokenów]
[Style guide:          ~2 000 tokenów]
[Przykłady good/bad:   ~1 500 tokenów]

// ════════════════════════════════════════════
// [VARIABLE] - zmienia się per zapytanie, ~50 tokenów
// ════════════════════════════════════════════
Napisz nagłówek H1 dla landing page produktu X dla audience Y.

// Pierwsze użycie = pełna cena.
// Każde kolejne (w oknie TTL) = cached price.
// Im więcej powtórzeń, tym większy compound effect.

Najprostszy sposób budowania prompt library: Notion / Obsidian / Airtable. Każdy template ma stałą część (zaczynającą się tymi samymi 1 000+ tokenami), zmienną część (placeholder do uzupełnienia) i tagi (use case, target model). W praktyce 5-10 templates pokrywa 80% Twojej pracy z AI. Skopiuj template, dopisz zmienną część, wyślij - po kilku użyciach cache aktywuje się automatycznie. Dla deweloperów budujących produkt: zaszywaj stałe części w kodzie aplikacji, parametryzuj tylko zmienne fragmenty. Przy 1 000+ wywołaniach API dziennie różnica w rachunku jest liczona w setkach dolarów miesięcznie.

💡 Anthropic vs OpenAI - różnica w modelu cachowania

Anthropic: explicit cache_control w API call - większa oszczędność (90%), ale wymaga wskazania co cachować. TTL: 5 minut (standardowy), 1 godzina (przy cache_control: {"type": "ephemeral"}). OpenAI: automatic - mniejsza oszczędność (50%), zero konfiguracji, działa jeśli prompty mają stabilną strukturę od początku. Więcej o Claude prompt caching w sekcji Tipy specyficzne - Claude.

16. Wispr Flow / voice input dla bogatszych promptów

Brzmi paradoksalnie: dłuższy prompt = mniej tokenów ostatecznie? Tak. I to spora rewolucja w tym, jak myślisz o promptingu. Pisząc 100-słowny prompt, opuszczasz detale - bo pisanie zajmuje czas i skracasz. AI zwraca uogólnioną odpowiedź. Wracasz z follow-upami: "ale chodziło mi o X", "dodaj Y", "zmień ton". Każdy follow-up kompounduje koszt (patrz Tip 3 - edytuj zamiast wysyłać korekty). Mówiąc 400-słowny brief w minutę, dajesz wszystkie detale od razu - AI w pierwszej odpowiedzi trafia w sedno, bez iteracji, z niższym total cost. Ruben Hassid promuje ten workflow jako "ulubioną productivity unlock" w pracy z AI.

Narzędzia: Wispr Flow ($12/mies, macOS i Windows) - voice-to-text z AI cleaning (usuwa "yyy", powtórzenia), działa systemowo w każdym polu tekstowym, świetnie radzi sobie z polskim. Whisper API (OpenAI, $0,006/min) - self-hosted dla power userów, wymaga własnej integracji. Wbudowany dyktafon iOS / macOS - darmowy, najprostsza opcja, gorsza precyzja niż Wispr przy polszczyźnie.

// TYPING - strategia marketingowa dla klienta
Prompt:        80 słów
Odpowiedź:     ogólna → 4 follow-upy doprecyzowujące
Czas pracy:    ~15 minut
Total tokens:  ~25 000

// WISPR FLOW - ten sam brief
Prompt głosowy: 350 słów (mówiony w 1,5 min)
Odpowiedź:      trafna od razu → 1 follow-up
Czas pracy:     ~8 minut
Total tokens:   ~12 000

// 52% mniej tokenów. Połowa czasu.
// Wersja głosowa okazała się lepsza -
// zawierała detale, których pisząc bym pominął.

💡 Voice nie zawsze wygrywa

Pracujesz w open space? Voice input odpada. Piszesz wrażliwe dane, których nie chcesz wymawiać głośno? Zostań przy klawiaturze. To narzędzie dla home office i prywatnych zadań - nie próbuj go wpychać w każdą sytuację.

Pobierz checklistę PDF

13 stron praktycznych zasad, przykładów słabszych i lepszych promptów oraz prosty wzór dobrego polecenia do AI.

Pobierz PDF z checklistą

Bez rejestracji. Do zapisania, wydruku albo wysłania zespołowi.

🎯 Tipy specyficzne - Claude (Sonnet, Opus, Haiku)

Każdy model ma swoje mechanizmy, które można wykorzystać albo przypadkowo przepłacić. Claude ma kilka unikalnych komend i feature'ów, których ChatGPT i Gemini nie oferują - a które bezpośrednio przekładają się na koszt sesji.

1. Extended thinking - kiedy warto, kiedy nie

Extended thinking generuje "thinking tokens" - widoczne w API response, ale niepokazywane userowi. Płacisz za nie. Thinking tokens potrafią być 5-10× więcej niż tokeny odpowiedzi. Dla prostych zadań to 90% straty.

Warto włączyć: złożone decyzje architektoniczne, debugowanie wielowarstwowych błędów, wieloetapowe rozumowanie matematyczne. Nie warto: prosty copywriting, reformatowanie tekstu, pytania faktograficzne. W API: thinking: { type: "enabled", budget_tokens: 5000 } - zacznij od 2 000-5 000. Dla prostych zadań: type: "disabled".

2. CLAUDE.md discipline (zasada Nate'a)

Plik CLAUDE.md ładuje się w każdej sesji Claude Code. Każdy bajt = stały startup overhead. Zasada Nate'a: max 200 linii / 2 000 tokenów. Co powinno być: kluczowe konwencje projektu, decyzje architekturalne, rzeczy które Claude nagminnie pomija. Co powinno trafić do osobnych plików (lazy load): szczegółowa dokumentacja, pełny kod, długie instrukcje. Użyj .claudeignore dla dużych folderów (node_modules, .next, dist). Większy CLAUDE.md = wolniejsze sesje + droższy startup.

3. /rewind - Anthropic's #1 recommended habit

/rewind wraca do dowolnej poprzedniej wiadomości i usuwa wszystko po niej z kontekstu. Idealne gdy Claude poszedł złą ścieżką. Bez /rewind: zła próba zostaje w kontekście, kompounduje przy każdej kolejnej odpowiedzi - model iteruje na błędnym założeniu. Z /rewind: zła próba nie istnieje dla AI. Czysty restart od dobrego punktu. Użyj natychmiast, gdy widzisz, że coś poszło nie tak - nie pozwól Claude'owi dalej budować na złym fundamencie.

4. /compact vs /clear - stanowisko Nate'a

Dokumentacja mówi: nowe zadanie = /clear, kontynuacja = /compact. Nate Herk przestał używać /compact w ogóle. Zamiast tego: manualny summary + /clear + paste (workflow z Tipu 11). Dlaczego: /compact traci kontrolę - model decyduje co zostaje w jego najgorszym punkcie. Manualny summary = Ty decydujesz co ważne, zanim wyczyścisz historię.

5. 5-godzinne rolling window dla Pro

Claude Pro ma fair use: rolling window 5h od pierwszej wiadomości każdego okna. Reset NIE jest o 00:00 - każde okno ma własny, niezależny licznik. Sprawdź swój status: /status w Claude Code. Strategia: jeśli zostało Ci 5 wiadomości i 20 minut do resetu - odłóż ciężkie zadania. Intensywne sesje w krótkim oknie wyczerpują pulę wielokrotnie szybciej niż rozłożone na kilka bloków z przerwami.

6. Artifacts - plan w Chat, twórz w Artifacts

Artifacts (claude.ai) to oddzielna powierzchnia dla długich outputów: kod, dokumenty, prezentacje. Generowanie w artifact nie kompounduje conversation context tak jak typowe odpowiedzi. Workflow: opisz co chcesz w chacie, powiedz "stwórz w artifact" - Claude buduje tam, conversation zostaje czyste. Artifacts łatwo eksportujesz do innych narzędzi i edytujesz iteracyjnie bez zaśmiecania historii konwersacji.

Okna kontekstowe – skala
GPT-4o
128K tok.
Claude Opus 4.7
200K tok.
Gemini 2.5 Pro
1M tok.

🎯 Tipy specyficzne - ChatGPT (GPT-4o, GPT-4o mini, GPT-5)

ChatGPT ma kilka feature'ów, które mogą albo pomagać, albo po cichu powiększać rachunki - zależnie od tego, jak nimi zarządzasz.

1. GPT-4o mini wystarcza częściej, niż myślisz

GPT-4o kosztuje $2,50/$10 per 1M tokenów (input/output). GPT-4o mini kosztuje $0,15/$0,60 - to 16× tańszy input. Jakość: 80-85% pełnego GPT-4o dla większości zadań pisarskich, summarization i brainstormingu. Domyślnie ChatGPT Plus pre-selectuje 4o - świadomie zmień na mini dla: draftów postów social media, reformatowania list, tłumaczeń, krótkich Q&A. Trzymaj 4o dla: rozumowania, kodu, complex analysis.

2. Context window per model - szok

Powszechny mit: "GPT-4 ma duży context". Realnie:

  • GPT-3.5 Turbo: 16K tokenów
  • GPT-4 (oryginalny): 8K tokenów (!) - prawie najmniejszy z popularnych modeli
  • GPT-4 Turbo / GPT-4o / GPT-4o mini: 128K tokenów
  • GPT-5: 256K tokenów (od 2025)

Jeśli ChatGPT "zapomina" początku sesji - sprawdź, którego modelu używasz. Możesz być na GPT-4 oryginalnym zamiast Turbo.

3. Memory - kontrowersyjny feature

ChatGPT Memory wstrzykuje zapamiętane informacje jako input tokens do każdej rozmowy. Wszystko co AI o Tobie zapamiętało - ładuje się w pre-prompt. Rośnie niekontrolowanie. Kiedy zostawić: stały kontekst zawodowy (firma, rola, projekty), preferencje stylu. Kiedy wyłączyć: pracujesz z różnymi klientami (Memory miesza konteksty), privacy concerns, optymalizacja kosztów. Sprawdź co zapamiętało: Settings → Personalization → Manage Memory. Usuń wszystko starsze niż miesiąc.

4. Custom Instructions - stały kontekst za darmo

Settings → Personalization → Custom Instructions. Dwa pola, max 1 500 znaków każde. Wpisane raz, działają w każdym chacie bez dodatkowego kosztu. Przykład dobrego użycia: "Jestem copywriterem B2B. Piszę dla polskich firm SaaS. Odpowiadaj zwięźle, bez preambuły, bez 'Happy to help'." Oszczędność: 200-500 tokenów per chat × 50 chatów/mies = 10 000-25 000 tokenów miesięcznie. Nie wpisuj: długich dokumentów, kodu, treści które się zmieniają.

5. Structured output (JSON Schema)

Zamiast prosić AI o wynik w tekście i ręcznie parsować - zdefiniuj schemat JSON. Model generuje tylko wymagane pola, bez wstępów i komentarzy. W aplikacji: poproś wprost "Odpowiedz tylko JSON, bez dodatkowych wyjaśnień." W API (GPT-4o+): użyj parametru response_format z json_schema. Efekt: krótszy output = niższy koszt + zero błędów parsowania.

6. Vision - cropuj przed uploadem

Screenshot 1 000×1 000 pikseli = ~1 300 tokenów dla Vision. Pełny ekran 1920×1080 to ~1 700 tokenów. Ten sam ekran przycięty do relevantnego fragmentu 800×400 to ~400 tokenów. Zasada: cropuj przed wklejeniem. Pokazujesz błąd w konsoli - wytnij samą konsolę. Pokazujesz element UI - wytnij sam element. Dla tekstu na obrazie: zawsze lepiej skopiować jako tekst niż wysłać screenshot.

🎯 Tipy specyficzne - Gemini (2.5 Pro, 2.5 Flash)

Gemini jest najczęściej niedoceniany wśród polskich użytkowników AI. Ma trzy cechy, które w odpowiednich use case'ach robią z niego najtańszą opcję.

1. 1M context window to wygoda, nie cel

Gemini 2.5 Pro ma kontekst do 1 miliona tokenów. Pułapka: to nie znaczy, że masz go wypełniać. Retrieval accuracy spada z 92% przy 256K do 78% przy 1M (benchmark Nate'a). Im większy kontekst, tym Gemini słabszy w odnajdywaniu konkretów. Zasada: 1M context używaj tylko gdy realnie potrzebujesz pełnej analizy całości - np. cała książka, duże repozytorium, pełna baza prawna. Dla normalnych zadań: keep context small, reset często.

2. Gemini 2.5 Flash - najtańszy model na rynku

Cena (kwiecień 2026): $0,075 / 1M tokenów input, $0,30 / 1M output. Dla porównania: Claude Haiku 4.5 to $1/$5 - Flash jest 13× tańszy. Jakość: zaskakująco dobra dla prostych zadań. Use cases: tłumaczenia masowe, bulk reformatting, klasyfikacja tekstów, pre-processing przed droższym modelem. Nasz Optymalizator promptów używa Flash właśnie z tego powodu - efektywność per dolar nie do pobicia.

3. Code execution i Search - w cenie

Gemini w Google AI Studio ma wbudowane code execution i search w jednej operacji, bez osobnych kosztów. ChatGPT z web search: osobna operacja + system prompt narzędzia (~500-1 000 dodatkowych tokenów). Gemini z search: wlicza się w normalne query. Dla research-heavy zadań Gemini bywa najtańszym wyborem.

4. AI Studio vs Gemini Advanced - różne limity

AI Studio (aistudio.google.com): darmowy z generous rate limits, pay-as-you-go po przekroczeniu, pełny dostęp do API, szczegółowe quota usage. Najlepsze dla deweloperów i power userów. Gemini Advanced ($20/mies): consumer interface, 2.5 Pro + Deep Research, limity nieujawniane przez Google. Counterintuitive: AI Studio + własny skrypt (Apps Script, Python notebook) jest często tańsze niż subskrypcja Gemini Advanced - jeśli masz technical comfort.

5. Multi-modal - Gemini wygrywa

Gemini natywnie obsługuje obrazy, wideo (do 1h w 2.5 Pro), audio i kod w jednym call. ChatGPT wymaga osobnych wywołań: Whisper API dla audio, Vision dla obrazów, GPT-4o dla tekstu - trzy calls, trzy overheady. Gemini: wrzucasz wideo ze spotkania bezpośrednio, dostajesz transcript + key insights + screenshot reference w jednej operacji. Dla multi-modal workflow Gemini jest strukturalnie najtańszy.

💡 Gemini do długich dokumentów i multi-modal, Flash do bulk tasks

Strategia per use case: Gemini Pro gdy potrzebujesz dużego kontekstu lub multi-modal w jednym call. Flash gdy priorytetem jest koszt na masowych operacjach. Flagship modele (Claude Opus, GPT-4o) zostawiaj dla zadań wymagających najwyższego poziomu rozumowania.

🛠 Narzędzia, które pomagają

Cztery narzędzia, które realnie pomagają w optymalizacji tokenów. Wszystkie testowałem osobiście. Lista jest krótka celowo - wolę 4 narzędzia, których używam codziennie, niż 20, których "warto by spróbować".

Licznik tokenów - iletokenow.pl

Nasza strona, na której właśnie jesteś. Wklejasz tekst → widzisz dokładną liczbę tokenów w GPT-4o, GPT-4, Llama, Mistral, Qwen (dla Claude i Gemini: przybliżenie, bo brak publicznego tokenizera tych modeli). Plus: aktualny kurs USD/PLN z NBP, koszt promptu w złotówkach, porównanie modeli side-by-side. Kluczowe: wszystko liczone lokalnie w przeglądarce. Twój tekst nie trafia na nasze serwery. Zero rejestracji. Zanim wyślesz długi prompt do API - sprawdź tu koszt. Na poziomie pojedynczych zapytań to grosze, ale nawyk cotygodniowego sprawdzania baseline oszczędza setki złotych w skali miesiąca. Wypróbuj licznik →

Optymalizator promptów - iletokenow.pl/optymalizator

Wklejasz polski prompt → AI tłumaczy go na natywny angielski → widzisz dokładną oszczędność (typowo 25-50% mniej tokenów po angielsku). Wewnętrznie używamy Gemini 2.5 Flash (najtańszy model na rynku - jak pisaliśmy w sekcji Gemini). Use case: masz długi system prompt po polsku dla aplikacji firmowej. Optymalizator pokazuje wersję angielską + oszczędność miesięczną przy danej skali użycia. Decyzja "EN czy PL" staje się oparta na liczbach, nie intuicji. Wypróbuj optymalizator →

Zewnętrzne narzędzia

Docling (IBM, open source) - konwersja PDF/DOCX/HTML → Markdown. Najszybszy sposób wdrożenia Tipu 2. Instalacja: pip install docling. Działa offline, prywatne dokumenty zostają u Ciebie. Alternatywa: markitdown od Microsoft (prostszy, bez OCR).

Wispr Flow - voice-to-text z AI cleaning. $12/mies, macOS i Windows, działa systemowo w każdym polu tekstowym. Szczegóły dlaczego to przekłada się na mniej tokenów - w Tipie 16.

Anthropic count_tokens API (POST /v1/messages/count_tokens) - bezpłatny, wymaga API key, zwraca dokładną liczbę tokenów zanim wyślesz zapytanie. Idealne dla deweloperów budujących na Claude. Nasz Optymalizator używa tego API w tle.

tiktoken (github.com/openai/tiktoken) - oficjalny tokenizer dla wszystkich modeli GPT, open source, self-hostable. Fundamentalna wiedza dla każdego, kto buduje aplikację z OpenAI API. Dashboardy historycznych kosztów: Anthropic Console (console.anthropic.com) i OpenAI Usage Dashboard (platform.openai.com/usage) - sprawdzaj co tydzień, żeby wcześnie złapać niekontrolowane wzrosty.

📚 Źródła i podziękowania

Część tipów w tym poradniku to spolszczone i uzupełnione wersje oryginalnych wskazówek od świetnych twórców w community AI. Należy im się pełny credit:

  • Ruben Hassid - "How to stop hitting Claude usage limits" (Substack). Źródło tipów o Edit vs follow-up, Haiku vs Opus, "Ask me questions", Plan vs Build, Wispr Flow, Markdown conversion (doc.new trick), wyłączaniu funkcji. Tipy 1-10 w większości bazują na jego pracy. Polecamy jego newsletter.
  • Nate Herk - "How to Never Hit Your Claude Limit Again" (materiał wewnętrzny społeczności AIS Plus). Analiza 18 000 bloków myślenia w 7 000 sesjach Claude Code. Źródło teorii compounding context, retrieval accuracy stats, manual compact approach, sub-agents strategy, session chaining (assembly line), CLAUDE.md discipline, prompt caching guidance. Tipy 11-15 w większości bazują na jego badaniach.
  • Anthropic Claude docs - /rewind documentation, context window best practices, Projects feature, prompt caching, extended thinking. Wszystkie dane techniczne (limity, ceny, parametry API) z docs.anthropic.com.
  • OpenAI platform docs - token counting, structured output, vision tokenization, Custom Instructions, context window per model. Dane z platform.openai.com/docs.
  • Własna praca - benchmark polskiego podatku tokenowego na korpusie badania porównawcze (5 000 par zdań), polskie adaptacje promptów i przykładów, kontekst dla polskich firm, testy realne na własnych projektach (VoiceClara, Tikando, iletokenow.pl).

Jeśli znalazłeś błąd, masz lepszy tip albo chcesz coś dodać - napisz na kontakt@iletokenow.pl. Cały poradnik jest otwarty i darmowy - i taki zostanie. Aktualizujemy go co kwartał (ostatnia: 24 kwietnia 2026).

❓ Najczęściej zadawane pytania

Czy tipy działają tak samo dla darmowych kont?

Większość tipów działa na każdym planie. Tipy dotyczące /compact i sub-agentów wymagają planu Pro lub dostępu przez API.

Jak dużo realnie zaoszczędzę stosując te tipy?

Zależy od stylu pracy. Najczęstszy efekt po wdrożeniu 3-5 tipów to 40-70% mniej tokenów miesięcznie. Samo przełączenie na tańszy model do prostych zadań często daje 50-60% oszczędności bez żadnej zmiany w jakości.

Które tipy dają największe oszczędności?

Największy efekt dają: (1) konwersja plików do Markdown - do 70% mniej tokenów, (2) wybór tańszego modelu - do 15× mniej, (3) edytowanie zamiast follow-upów - do 13× mniej w długich sesjach.

Czy ChatGPT Plus ma ukryte limity tokenów?

Tak. ChatGPT Plus nie oferuje nieograniczonego dostępu - Twoja pula wiadomości i tokenów jest limitowana w 3-godzinnych oknach. Dokładne limity OpenAI nie podaje oficjalnie, ale doświadczeni użytkownicy szacują ~40-50 wiadomości z GPT-4o co 3 godziny.

Dlaczego Claude ma 5-godzinne okno?

Anthropic stosuje "rolling window" - Twój budżet tokenów odnawia się stopniowo w 5-godzinnym oknie, nie resetuje o północy. To oznacza, że intensywne używanie przez 5 godzin z rzędu uderzy w limit, ale po przerwie budżet się odnawia.

Czy tłumaczenie na angielski zawsze się opłaca?

Tak, jeśli model i tak zwraca wyniki po polsku. Prompt po angielsku = 30-52% mniej tokenów wejściowych. Jeśli potrzebujesz odpowiedzi po polsku, dopisz do promptu: "Respond in Polish."

Jak mierzyć swoje zużycie tokenów?

Użyj naszego licznika tokenów na iletokenow.pl do wyceny promptów przed wysłaniem. Do monitorowania historycznych kosztów: OpenAI Usage Dashboard (platform.openai.com), Anthropic Console (console.anthropic.com), Google AI Studio.

Czy subskrypcja vs API jest bardziej opłacalna?

Dla użytkowników indywidualnych (<200K tokenów/mies.): subskrypcja jest tańsza. Dla firm (>500K tokenów/mies.): API z optymalizacją modelu jest zwykle tańsze. Granica jest różna dla każdego modelu - sprawdź nasze porównanie cen.

Co robić, kiedy osiągnę limit?

Kilka opcji: (1) Poczekaj na odnowienie (Claude: 5h, ChatGPT: 3h). (2) Przejdź tymczasowo na tańszy model. (3) Kontynuuj przez API (nie ma limitów RPM, tylko billing). (4) Zastosuj technikę session chaining - skompresuj kontekst i zacznij nową sesję.

Czy te tipy będą aktualne za rok?

Zasady oszczędzania tokenów (mniejszy kontekst, tańszy model do prostych zadań, konwersja formatów) są fundamentalne i przetrwają kolejne generacje modeli. Konkretne narzędzia i ceny zmienią się, ale aktualizujemy poradnik co kwartał.

Zacznij od jednej zmiany

Najprostszy pierwszy krok: przed wysłaniem promptu usuń wszystko, czego AI nie potrzebuje do odpowiedzi.

Podsumowanie

16 tipów to dużo. Wdrożenie wszystkiego naraz = niedrożenie niczego. Wybierz 3 tipy. Wdrażaj w tym tygodniu. Następny tydzień - kolejne 3. W miesiąc opanujesz 12 nawyków, które kompoundują się w 60-70% redukcji kosztów AI.

🔑 Trzy tipy na start - największy zwrot z inwestycji czasu

1. Wybór tańszego modelu (Tip 1) - zanim otworzysz flagowy model, zapytaj: czy Haiku / Flash / 4o-mini nie wystarczy? Dla połowy zadań wystarczy. 40-60% oszczędności miesięcznie, zero zmiany w jakości.

2. Edit zamiast follow-up (Tip 3) - zamiast pisać "możesz poprawić?", edytujesz poprzednią wiadomość. Kontekst nie kumuluje się. Jeden nawyk, dramatyczna oszczędność w długich sesjach.

3. Markdown zamiast PDF (Tip 2) - pierwsze użycie Docling na dużym PDFie pokaże 60-70% mniej tokenów. Jednorazowa inwestycja, stały zysk.

Spodziewane efekty przy konsekwentnym wdrożeniu: 2 tygodnie: 30-40% redukcja miesięcznego rachunku. 1 miesiąc: 50-60%. 3 miesiące: 60-70% (limit praktyczny bez zmian architektonicznych). Powyżej 70% wymaga caching infrastruktury, własnego RAG, batch processingu - to temat osobnego poradnika.

Zmierz swój baseline zanim zaczniesz - wklej typowy prompt do naszego licznika tokenów i zanotuj liczbę. Po tygodniu sprawdź ponownie. Zmiana bez pomiaru to tylko wrażenie oszczędzania.

Jeśli poradnik pomógł - podziel się nim z osobą, która narzeka na limity AI. Polskie firmy tracą setki tysięcy złotych miesięcznie na niezoptymalizowanym użyciu tokenów. Wystarczy, że 100 ludzi wdroży 3 tipy.

- Michał, iletokenow.pl

Znalazłeś błąd lub masz tip do dodania? Napisz do nas - poradnik jest żywym dokumentem.