Dostrajanie i optymalizacja wydajności

Odpalasz duży refaktor w sesji, która ma już załadowanych 40 plików i pół godziny rozmowy za sobą. Odpowiedzi się wleką, każda tura na nowo przetwarza całe okno, a Twoje koszty rosną, podczas gdy faktyczne edycje stoją w miejscu. Model nie jest wolny — to Twój kontekst jest rozdęty, wybór modelu nie pasuje do zadania, a nic nie jest zawężone. Dostrajanie wydajności w Claude Code sprowadza się głównie do podawania modelowi dokładnie tego, czego zadanie wymaga, i niczego więcej.

Co wyniesiesz z tego przewodnika

Powtarzalny sposób na utrzymanie szczupłego okna kontekstu, dzięki któremu odpowiedzi pozostają szybkie i tanie
Konkretne reguły wyboru między Haiku, Sonnet i Opus dla danego zadania — oraz jak przełączać model w trakcie sesji
Prompty do skopiowania dla skoncentrowanej analizy, refaktorów wsadowych i sterowanego kompaktowania
Prawdziwa telemetria: jak naprawdę mierzyć tokeny, koszt i czas trwania zamiast zgadywać
Plan ratunkowy na sytuacje, gdy sesja się zatyka lub osiąga limit kontekstu

Dlaczego to kontekst jest wąskim gardłem

Każda wysłana tura na nowo przetwarza całe aktywne okno kontekstu. Sesja niosąca dziesiątki plików, długie wyjścia narzędzi i rozrośniętą rozmowę płaci ten koszt przy każdej pojedynczej odpowiedzi. Lekarstwem nie jest szybszy model — lecz mniejsze, ostrzejsze okno.

W Anthropic API Fable 5, Sonnet 5 i Opus 5 mają okna 1M tokenów, a Haiku 4.5 ma 200K. Sonnet 5 nie wymaga tam sufiksu [1m]. W Claude Code Opus 1M jest wliczony w Max, Team i Enterprise, lecz wymaga usage credits w Pro; bramki mogą budżetować Sonnet 5 na 200K, dopóki nie wybierzesz wariantu 1M. Duże okno to budżet, a nie cel.

Utrzymuj CLAUDE.md w ryzach

Ułóż pliki CLAUDE.md tak, aby każdy niósł tylko to, czego model potrzebuje na danym poziomie. Rozdęty główny plik pamięci jest ładowany do każdej sesji, niezależnie od tego, czy jest istotny, czy nie.

# Główny CLAUDE.md (trzymaj go krótko)
## Tylko krytyczne informacje o projekcie
- Architektura: Mikroserwisy z Node.js
- Kluczowe polecenia: npm run dev, npm test
- Standardy kodowania: ESLint + Prettier

# Frontend CLAUDE.md
## Specyficzne dla frontendu
- Framework: React 18 z TypeScript
- Stan: Magazyny Zustand w /src/stores
- Komponenty: /src/components zgodnie z atomic design

Wskazówki dotyczące konkretnego poddrzewa umieszczaj w pliku CLAUDE.md wewnątrz tego poddrzewa. Claude Code ładuje pamięć hierarchicznie, więc reguły backendu nie muszą żyć w głównym pliku, za który płaci również frontend.

Ładuj tylko te katalogi, których zadanie wymaga

Zawęź zestaw roboczy flagą --add-dir zamiast pozwalać, by sesja wciągnęła całe drzewo.

Bez fokusu
Skoncentrowane

# Wciąga szeroki kontekst, a potem przeszukuje wszystko
claude
> Przeanalizuj całą bazę kodu i znajdź wszystkie komentarze TODO

# Ogranicz zestaw roboczy do tego, co ma znaczenie
claude --add-dir src/auth src/middleware
> Wyjaśnij przepływ uwierzytelniania, a potem wymień komentarze TODO w src/auth/ dotyczące wygaśnięcia JWT

Prompt do skopiowania dla skoncentrowanej, niskotokenowej analizy:

Scope: only the files under src/auth/ and src/middleware/auth.ts.
Do not read anything outside that scope.
Trace the authentication flow from request to verified user, list every file
involved, and flag any TODO or FIXME comments related to token expiration.
Return a short bullet summary, not a file-by-file dump.

To właśnie jawne „do not read outside that scope” powstrzymuje model przed błądzeniem po niepowiązanych plikach i rozdmuchiwaniem okna.

Kompaktowanie i czyszczenie

Dwie komendy sterują rozmiarem okna w trakcie sesji:

/clear całkowicie wymazuje rozmowę i załadowany kontekst. Używaj przy przełączaniu się na niepowiązaną pracę.
/compact podsumowuje rozmowę, by odzyskać miejsce, zachowując zdestylowaną pamięć. Używaj podczas długiej sesji, która wciąż trzyma się tematu.

/compact z założenia powoduje straty, więc steruj tym, co zachowuje.

Prompt do skopiowania dla sterowanego kompaktowania podczas długiej sesji:

/compact Keep all error traces, failing test output, file paths I have edited, and
architecture decisions made so far. Drop intermediate explanations, abandoned
attempts, and anything purely conversational.

Kompaktowanie z jawnymi listami „zachowaj” i „usuń” zachowuje wątek diagnostyczny, odrzucając wypełniacz, który spowalniał każdą turę.

Obserwuj, co zużywa okno

Uruchom /context, aby zobaczyć zużycie. Renderuje kolorową siatkę pokazującą, co wypełnia okno — prompt systemowy, pliki pamięci, narzędzia, rozmowę i załadowane pliki — więc na pierwszy rzut oka widzisz, czy winowajcą jest kilka dużych plików, czy długa rozmowa.

claude> /context

Jeśli siatka pokazuje dominację plików, użyj /clear i załaduj ponownie tylko to, czego potrzebujesz. Jeśli dominuje rozmowa, użyj /compact ze wskazówkami.

Wybór modelu

Dopasuj model do zadania. Przepłacanie za Opus przy literówce marnuje pieniądze i opóźnienie; oszczędzanie na Haiku przy decyzji architektonicznej marnuje Twój czas na słabszą odpowiedź.

Zadanie	Zalecany model	Dlaczego
Migracje w całej bazie kodu, najtrudniejsze debugowanie, długotrwałe zadania	`fable` (Fable 5)	Najwyższe możliwości; kontekst 1M, wyjście 128K; wliczony w Max i Team Premium do 50% limitów, usage credits w Pro i Team Standard
Literówki, zmiany nazw, formatowanie, mechaniczne edycje	`haiku` (Haiku 4.5)	Szybki i tani; głębokie rozumowanie nie jest potrzebne
Implementacja funkcji, rutynowe poprawki błędów	`sonnet` (Sonnet 5)	Mocny domyślny wybór na co dzień, kontekst 1M
Architektura, duże refaktory, zawiłe debugowanie	`opus` (Opus 5)	Znakomite rozumowanie agentowe i czołowe wyniki SWE-Bench

Model podstawowy możesz ustawić lub przełączyć na cztery sposoby. Claude Code ma łańcuchy fallbacków dla awarii, lecz nie ma routera rozpoznającego zadanie i wybierającego model na podstawie promptu:

W trakcie sesji — /model sonnet (albo fable, opus, haiku, opusplan, lub pełna nazwa jak claude-sonnet-5)
Przy starcie — claude --model opus
Zmienna środowiskowa — export ANTHROPIC_MODEL=haiku
Ustawienia — pole model w .claude/settings.json

{
  "model": "sonnet"
}

Praktyczny wzorzec: zacznij sesję w Sonnet, a gdy trafisz na naprawdę trudny problem, przełącz się w górę.

# Mechaniczne porządki — zejdź do taniego modelu
/model haiku
Rename every occurrence of `getUserData` to `fetchUserProfile` across src/, including imports.

# Trudna decyzja architektoniczna — przełącz w górę
/model opus
Evaluate whether to split the monolithic OrderService into separate Order, Payment, and
Fulfillment services. Lay out the trade-offs and a migration sequence before any code.

Budżet myślenia

Obecne modele adaptacyjne używają effort zamiast stałego budżetu tokenów. Ustaw low, medium, high, xhigh lub max przez /effort, suwak /model, --effort albo CLAUDE_CODE_EFFORT_LEVEL. Domyślny jest high na Fable 5, Sonnet 5 i Opus 5 oraz xhigh na Opus 4.7.

Tylko Opus/Sonnet 4.6 mogą wrócić do starego stałego budżetu. Wyłącz adaptacyjne myślenie przed ustawieniem dodatniego limitu:

# Włącz zgodność ze stałym budżetem 4.6, a potem go ogranicz
export CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1
export MAX_THINKING_TOKENS=8000

# W Anthropic API wyłącz myślenie z wyjątkiem Fable 5
export MAX_THINKING_TOKENS=0

Wzorce pracy, które oszczędzają tokeny

Grupuj podobne operacje

Zbierz powtarzalną pracę w jedno przejście, zamiast płacić narzut kontekstu od każdego elementu.

Najpierw wylicz cele

claude> List every React component under src/components that is missing prop types.

Uruchom partię z jawnymi wskazówkami

claude> For each component you listed, add prop types inferred from actual usage in the file.
Process them in groups of five and report which files you changed.

Prompt do skopiowania dla kontrolowanego refaktoru wsadowego:

Find every file under src/api/ that calls the deprecated `db.queryRaw()` helper.
First list them. Then, working in batches of five, replace each call with the
parameterized `db.query()` equivalent, preserving behavior. After each batch,
run `npm test -- src/api` and stop if anything fails so we can review before continuing.

Wsadowość plus bramka testowa po każdej grupie powstrzymuje okno kontekstu przed puchnięciem i wyłapuje regresje, zanim skumulują się w całej zmianie.

Twórz punkt kontrolny przed dużymi zmianami

Git to Twoje cofnij dla refaktorów napędzanych przez AI. Rozgałęź się i zacommituj, zanim spuścisz model ze smyczy, żeby nieudany przebieg dzielił od Ciebie jeden git reset.

git checkout -b ai-refactor-auth
git commit -am "Checkpoint before auth refactor"

# pozwól Claude pracować, a jeśli pójdzie nie tak:
git reset --hard HEAD~1

Wykorzystuj analizę ponownie między sesjami

Niech model raz zapisze ustalenia do pliku, a potem odwołuj się do tego pliku zamiast wyprowadzać analizę od nowa (i ponownie ładować źródło) w każdej sesji.

claude> Analyze all API endpoints and write the results to API_ANALYSIS.md.
# później, w świeżej sesji:
claude> Using API_ANALYSIS.md, list every endpoint missing authentication.

Mierzenie wydajności naprawdę

Nie zgaduj zużycia tokenów — mierz je. Claude Code udostępnia do tego prawdziwe powierzchnie:

/usage — zużycie tokenów i wzorce wydatków wewnątrz sesji (konsoliduje starsze /cost i /stats)
/context — co właśnie w tej chwili wypełnia okno

Dla śledzenia w skali całego zespołu lub w czasie włącz eksport metryk OpenTelemetry. To jedyna usankcjonowana programistyczna powierzchnia metryk — nie ma API tokenów/czasu trwania na operację, które można by skryptować.

# Emituj metryki Claude Code (tokeny, koszt, liczbę sesji) przez OTLP
export CLAUDE_CODE_ENABLE_TELEMETRY=1
export OTEL_METRICS_EXPORTER=otlp

Albo przypnij to w ustawieniach, aby każda sesja raportowała:

{
  "env": {
    "CLAUDE_CODE_ENABLE_TELEMETRY": "1",
    "OTEL_METRICS_EXPORTER": "otlp"
  }
}

Skieruj eksporter OTLP na swój backend metryk, a otrzymasz pulpity kosztu na sesję i przepustowości tokenów z prawdziwych danych, a nie z wymyślonych tabel benchmarkowych.

Gdy to się psuje

Objaw: długie opóźnienia przed każdą odpowiedzią.

Ratunek:

Uruchom /context, aby zobaczyć, co wypełnia okno.
Użyj /clear, jeśli dominują załadowane pliki; załaduj ponownie tylko potrzebne katalogi flagą --add-dir.
Użyj /compact z listą zachowaj/usuń, jeśli to rozmowa stanowi gros.
Zejdź do szybszego modelu (/model haiku lub sonnet) do pracy mechanicznej.

Objaw: odpowiedzi stają się coraz bardziej ogólnikowe wraz z wiekiem sesji.

Ratunek:

Okno jest prawdopodobnie nasycone nieaktualnym kontekstem — użyj /compact lub zacznij od nowa.
Wyraźnie powtórz cel po kompaktowaniu.
Podziel zadanie na mniejsze, zawężone kroki.
Przełącz się w górę na opus dla naprawdę trudnego podproblemu.

Objaw: okno jest pełne, a tury zawodzą lub są ucinane.

Ratunek:

Kompaktuj agresywnie z jawnymi wskazówkami zachowaj/usuń.
Podziel operację — nie próbuj zrefaktoryzować dwunastu modułów w jednej sesji.
Używaj /clear między niepowiązanymi zadaniami zamiast nieść wszystko dalej.
Przytnij przerośnięte pliki CLAUDE.md, które ładują się do każdej sesji.

Lista kontrolna wydajności

☐ Pliki CLAUDE.md trzymane krótko i zawężone do swojego poddrzewa
☐ Zestaw roboczy ograniczony flagą --add-dir zamiast ładowania całego repo
☐ /clear między niepowiązanymi zadaniami, /compact (ze wskazówkami) w obrębie długiego
☐ Model dopasowany do zadania: Haiku do mechaniki, Sonnet do rutyny, Opus do trudnych
☐ Operacje wsadowe dla powtarzalnych edycji, z bramką testową między grupami
☐ Commity punktów kontrolnych przed dużymi zmianami napędzanymi przez AI
☐ Prawdziwy pomiar przez /usage, /context i eksport metryk OTel

Co dalej

Optymalizacja kosztów

Zmniejsz wydatki, zachowując zyski wydajnościowe z tego przewodnika

Integracja CI/CD

Zastosuj te wzorce w zautomatyzowanych, bezgłowych potokach

Skalowanie zespołu

Wzorce wydajności dla dużych zespołów dzielących bazę kodu