Limity tokenów ChatGPT, Claude i Gemini — co się dzieje po przekroczeniu?

Każdy model AI ma limity. Niektóre są twarde — jak okno kontekstowe. Inne są miękkie — jak rate limits, które możesz zwiększyć płacąc więcej. Zrozumienie tych ograniczeń jest kluczowe dla budowania niezawodnych aplikacji i unikania nieprzyjemnych niespodzianek w produkcji.

Czym jest okno kontekstowe?

Okno kontekstowe (context window) to maksymalna liczba tokenów, które model może "zobaczyć" jednocześnie — wliczając w to prompt systemowy, historię rozmowy i bieżące zapytanie.

Wyobraź sobie to jako pamięć roboczą modelu. Tak jak człowiek skupiony na zadaniu nie pamięta szczegółów rozmowy sprzed trzech godzin, model "zapomina" co znajdowało się poza oknem kontekstowym.

Co liczy się do okna kontekstowego?

Prompt systemowy
Cała historia rozmowy (wszystkie poprzednie pytania i odpowiedzi)
Bieżący komunikat użytkownika
Pliki, obrazy, dokumenty przekazane w kontekście

Aktualne okna kontekstowe (2026)

| Model | Okno kontekstowe | Odpowiednik w słowach | |-------|-----------------|----------------------| | GPT-4o | 128 000 tokenów | ~96 000 słów ang. | | GPT-4o Mini | 128 000 tokenów | ~96 000 słów ang. | | GPT-4 Turbo | 128 000 tokenów | ~96 000 słów ang. | | Claude Opus 4 | 200 000 tokenów | ~150 000 słów ang. | | Claude Sonnet 4 | 200 000 tokenów | ~150 000 słów ang. | | Claude Haiku 4 | 200 000 tokenów | ~150 000 słów ang. | | Gemini 2.5 Pro | 1 000 000 tokenów | ~750 000 słów ang. | | Gemini 2.5 Flash | 1 000 000 tokenów | ~750 000 słów ang. | | Llama 3.3 70B | 128 000 tokenów | ~96 000 słów ang. | | Mistral Large | 128 000 tokenów | ~96 000 słów ang. |

Dla porównania: przeciętna powieść to ok. 80 000–100 000 słów. Gemini mieści ją w kontekście z zapasem; GPT-4o i Claude — na granicy.

Co się dzieje po przekroczeniu okna kontekstowego?

API — błąd lub obcięcie

Jeśli wyślesz do API prompt przekraczający okno kontekstowe, możesz otrzymać:

Błąd 400 (context length exceeded) — API odrzuca zapytanie
Automatyczne obcięcie — API usuwa najstarsze tokeny z kontekstu, zaczynając od początku historii rozmowy

Zachowanie zależy od ustawień i dostawcy. OpenAI domyślnie zwraca błąd; Anthropic podobnie. Lepiej samodzielnie zarządzać przycinaniem kontekstu niż polegać na automatycznym obcięciu.

ChatGPT (interfejs webowy) — automatyczne streszczanie

W interfejsie webowym ChatGPT używa mechanizmu automatycznego streszczania starszych fragmentów rozmowy, gdy kontekst się zapełnia. Model "wie", o czym rozmawiałeś, ale może nie pamiętać szczegółów.

Praktyczny efekt: przy bardzo długich rozmowach (ponad kilka godzin intensywnej wymiany) możesz zauważyć, że model "gubi" informacje z początku rozmowy. To normalne — nie błąd, tylko fizyczne ograniczenie.

Limity długości odpowiedzi

Oddzielnie od okna kontekstowego istnieje limit długości generowanej odpowiedzi (max output tokens):

| Model | Maksymalny output | |-------|-----------------| | GPT-4o | 16 384 tokenów | | GPT-4o Mini | 16 384 tokenów | | Claude Opus/Sonnet/Haiku | 8 192 tokenów | | Gemini 2.5 Pro | 8 192 tokenów (domyślnie) |

Jeśli poprosisz o napisanie bardzo długiego tekstu i model "urwie" w połowie — to właśnie limit output tokenów. Rozwiązanie: poproś o kontynuację lub podziel zadanie na części.

Rate limits — ile zapytań możesz wysłać?

Rate limits to ograniczenia liczby zapytań lub tokenów w jednostce czasu. Są różne dla różnych poziomów konta i modeli.

OpenAI (GPT-4o)

Nowe konta mają bardzo niskie limity. Limity rosną automatycznie wraz z historią płatności lub możesz poprosić o zwiększenie.

| Tier | RPM (zapytania/minutę) | TPM (tokeny/minutę) | |------|----------------------|---------------------| | Tier 1 | 500 | 30 000 | | Tier 2 | 5 000 | 450 000 | | Tier 3 | 5 000 | 800 000 | | Tier 4 | 10 000 | 2 000 000 | | Tier 5 | bez limitu | bez limitu |

RPM = Requests Per Minute, TPM = Tokens Per Minute

Anthropic (Claude)

Podobny system tierów. Claude Haiku ma wyższe limity niż Claude Opus — droższy model = niższy rate limit, bo więcej zasobów obliczeniowych.

Gemini (Google)

Gemini oferuje hojny darmowy tier (60 zapytań/minutę dla Gemini Flash), co czyni go atrakcyjnym do testów i małych projektów.

Błędy rate limit — co zrobić?

Kiedy przekroczysz rate limit, API zwraca błąd 429 Too Many Requests.

Prawidłowa obsługa:

Odczytaj nagłówek Retry-After z odpowiedzi
Poczekaj wskazany czas (zazwyczaj kilka sekund do minuty)
Spróbuj ponownie z exponential backoff (1s, 2s, 4s, 8s...)

Nigdy nie pompuj zapytań bez backoffu — to może skutkować tymczasowym bananem konta.

async function callWithRetry(fn: () => Promise<Response>, maxRetries = 4) {
  for (let i = 0; i < maxRetries; i++) {
    const res = await fn();
    if (res.status !== 429) return res;
    const delay = Math.pow(2, i) * 1000;
    await new Promise(r => setTimeout(r, delay));
  }
  throw new Error('Max retries exceeded');
}

ChatGPT Plus vs. API — różne limity

Ważna distinkcja: ChatGPT Plus (abonament $20/miesiąc) i API OpenAI to dwa różne produkty z różnymi limitami.

ChatGPT Plus:

Dostęp do GPT-4o bez limitów tokenów (ale z limitami wiadomości)
Limit wiadomości do GPT-4o: ok. 80 wiadomości co 3 godziny (stan na 2026)
Gdy limit zostanie wyczerpany, ChatGPT automatycznie przełącza na GPT-4o Mini

OpenAI API:

Płacisz za tokeny, nie za abonament
Limity zależą od poziomu konta (tier)
Możliwość zwiększenia limitów przez wniosek

Claude.ai vs. Anthropic API

Analogicznie jak u OpenAI:

Claude.ai Pro ($20/miesiąc):

Dostęp do Claude Opus i Sonnet
Limit: ok. 45 wiadomości co 5 godzin dla Opus
Automatyczny fallback na Haiku przy wyczerpaniu limitu

Anthropic API:

Płacisz za tokeny
Rate limits zależą od tier
Pełna kontrola nad modelem i parametrami

Gemini — gdzie są limity?

Google jest hojniejszy z limitami darmowego API, ale i tu istnieją ograniczenia:

Gemini 2.5 Flash — darmowy tier:

15 zapytań/minutę
1 500 zapytań/dzień
1 000 000 tokenów/minutę

Gemini 2.5 Pro — darmowy tier:

2 zapytania/minutę
50 zapytań/dzień

Dla produkcyjnych aplikacji darmowy tier to za mało — ale do testowania i prototypowania jest znakomity.

Jak zarządzać kontekstem w długich aplikacjach?

Technika 1: Okno przesuwne (sliding window)

Zamiast przekazywać całą historię, przekazuj tylko ostatnie N wiadomości. Wady: model nie "pamięta" wcześniejszych fragmentów. Zalety: przewidywalny koszt.

const MAX_HISTORY = 20; // ostatnie 20 wiadomości
const trimmedHistory = history.slice(-MAX_HISTORY);

Technika 2: Podsumowanie historii

Zamiast wyrzucać stare wiadomości, podsumowuj je i dodaj podsumowanie jako kontekst. Zachowujesz istotne informacje przy niższym koszcie tokenowym.

Technika 3: RAG (Retrieval Augmented Generation)

Zamiast wpychać całą dokumentację w kontekst — przechowuj ją w bazie wektorowej i pobieraj tylko relevantne fragmenty na podstawie bieżącego pytania. Dramatycznie zmniejsza koszt kontekstu.

Technika 4: Ekstrakcja kluczowych faktów

Na początku rozmowy wyekstrahuj kluczowe fakty i przechowuj je jako ustrukturyzowane dane. Zamiast całej historii rozmowy przekazuj krótkie podsumowanie faktów.

Praktyczna porada: monitoruj zużycie tokenów

Każda odpowiedź API zwraca informacje o liczbie użytych tokenów:

OpenAI: pole usage w odpowiedzi (prompt_tokens, completion_tokens)
Anthropic: pole usage (input_tokens, output_tokens)
Gemini: pole usageMetadata

Loguj te wartości i analizuj wzorce. Możesz odkryć, że 10% zapytań odpowiada za 60% kosztów — a to dopiero zaczyna optymalizację.

Szybkie policzenie kosztu bez API — wklej tekst na iletokenow.pl i sprawdź natychmiast.

Sprawdź też: Jak zaoszczędzić na tokenach — 23 sprawdzone techniki oraz Czym są tokeny AI?