Optymalizacja kosztów
Zmniejsz wydatki, zachowując zyski wydajnościowe z tego przewodnika
Odpalasz duży refaktor w sesji, która ma już załadowanych 40 plików i pół godziny rozmowy za sobą. Odpowiedzi się wleką, każda tura na nowo przetwarza całe okno, a Twoje koszty rosną, podczas gdy faktyczne edycje stoją w miejscu. Model nie jest wolny — to Twój kontekst jest rozdęty, wybór modelu nie pasuje do zadania, a nic nie jest zawężone. Dostrajanie wydajności w Claude Code sprowadza się głównie do podawania modelowi dokładnie tego, czego zadanie wymaga, i niczego więcej.
Każda wysłana tura na nowo przetwarza całe aktywne okno kontekstu. Sesja niosąca dziesiątki plików, długie wyjścia narzędzi i rozrośniętą rozmowę płaci ten koszt przy każdej pojedynczej odpowiedzi. Lekarstwem nie jest szybszy model — lecz mniejsze, ostrzejsze okno.
Obecne modele Claude w Claude Code mają duże okna (200K tokenów w Haiku 4.5, do 1M w Sonnet 4.6 i Opus 4.8 z sufiksem [1m], oraz okno 1M w Claude Fable 5), ale duże okno to budżet, a nie cel. Im bardziej je wypełnisz, tym wolniejsza i droższa staje się każda tura, i tym większe prawdopodobieństwo, że model zafiksuje się na nieistotnym materiale.
Ułóż pliki CLAUDE.md tak, aby każdy niósł tylko to, czego model potrzebuje na danym poziomie. Rozdęty główny plik pamięci jest ładowany do każdej sesji, niezależnie od tego, czy jest istotny, czy nie.
# Główny CLAUDE.md (trzymaj go krótko)## Tylko krytyczne informacje o projekcie- Architektura: Mikroserwisy z Node.js- Kluczowe polecenia: npm run dev, npm test- Standardy kodowania: ESLint + Prettier
# Frontend CLAUDE.md## Specyficzne dla frontendu- Framework: React 18 z TypeScript- Stan: Magazyny Zustand w /src/stores- Komponenty: /src/components zgodnie z atomic designWskazówki dotyczące konkretnego poddrzewa umieszczaj w pliku CLAUDE.md wewnątrz tego poddrzewa. Claude Code ładuje pamięć hierarchicznie, więc reguły backendu nie muszą żyć w głównym pliku, za który płaci również frontend.
Zawęź zestaw roboczy flagą --add-dir zamiast pozwalać, by sesja wciągnęła całe drzewo.
# Wciąga szeroki kontekst, a potem przeszukuje wszystkoclaude> Przeanalizuj całą bazę kodu i znajdź wszystkie komentarze TODO# Ogranicz zestaw roboczy do tego, co ma znaczenieclaude --add-dir src/auth src/middleware> Wyjaśnij przepływ uwierzytelniania, a potem wymień komentarze TODO w src/auth/ dotyczące wygaśnięcia JWTDwie komendy sterują rozmiarem okna w trakcie sesji:
/clear całkowicie wymazuje rozmowę i załadowany kontekst. Używaj przy przełączaniu się na niepowiązaną pracę./compact podsumowuje rozmowę, by odzyskać miejsce, zachowując zdestylowaną pamięć. Używaj podczas długiej sesji, która wciąż trzyma się tematu./compact z założenia powoduje straty, więc steruj tym, co zachowuje.
Uruchom /context, aby zobaczyć zużycie. Renderuje kolorową siatkę pokazującą, co wypełnia okno — prompt systemowy, pliki pamięci, narzędzia, rozmowę i załadowane pliki — więc na pierwszy rzut oka widzisz, czy winowajcą jest kilka dużych plików, czy długa rozmowa.
claude> /contextJeśli siatka pokazuje dominację plików, użyj /clear i załaduj ponownie tylko to, czego potrzebujesz. Jeśli dominuje rozmowa, użyj /compact ze wskazówkami.
Dopasuj model do zadania. Przepłacanie za Opus przy literówce marnuje pieniądze i opóźnienie; oszczędzanie na Haiku przy decyzji architektonicznej marnuje Twój czas na słabszą odpowiedź.
| Zadanie | Zalecany model | Dlaczego |
|---|---|---|
| Migracje w całej bazie kodu, najtrudniejsze debugowanie, długotrwałe zadania | fable (Fable 5) | Nowy poziom powyżej Opus; kontekst 1M, wyjście 128K |
| Literówki, zmiany nazw, formatowanie, mechaniczne edycje | haiku (Haiku 4.5) | Szybki i tani; głębokie rozumowanie nie jest potrzebne |
| Implementacja funkcji, rutynowe poprawki błędów | sonnet (Sonnet 4.6) | Mocny domyślny wybór na co dzień, kontekst 1M |
| Architektura, duże refaktory, zawiłe debugowanie | opus (Opus 4.8) | Znakomite rozumowanie agentowe i czołowe wyniki SWE-Bench |
Model możesz ustawić lub przełączyć na cztery sposoby. Nie ma konfiguracji automatycznego przełączania — wybór modelu odbywa się jednym z tych jawnych mechanizmów:
/model sonnet (albo fable, opus, haiku, opusplan, lub pełna nazwa jak claude-sonnet-4-6)claude --model opusexport ANTHROPIC_MODEL=haikumodel w .claude/settings.json{ "model": "sonnet"}Praktyczny wzorzec: zacznij sesję w Sonnet, a gdy trafisz na naprawdę trudny problem, przełącz się w górę.
# Mechaniczne porządki — zejdź do taniego modelu/model haikuRename every occurrence of `getUserData` to `fetchUserProfile` across src/, including imports.
# Trudna decyzja architektoniczna — przełącz w górę/model opusEvaluate whether to split the monolithic OrderService into separate Order, Payment, andFulfillment services. Lay out the trade-offs and a migration sequence before any code.Dla wspieranych modeli możesz wpływać na głębokość rozumowania. Budżet rozszerzonego myślenia jest domyślnie włączony na swoim maksimum 31 999 tokenów. Użyj MAX_THINKING_TOKENS, aby go obniżyć (taniej, szybciej), lub ustaw na 0, aby całkowicie wyłączyć myślenie:
# Przytnij budżet myślenia dla partii prostych edycjiexport MAX_THINKING_TOKENS=8000
# Całkowicie wyłącz rozszerzone myślenieexport MAX_THINKING_TOKENS=0Zbierz powtarzalną pracę w jedno przejście, zamiast płacić narzut kontekstu od każdego elementu.
Najpierw wylicz cele
claude> List every React component under src/components that is missing prop types.Uruchom partię z jawnymi wskazówkami
claude> For each component you listed, add prop types inferred from actual usage in the file.Process them in groups of five and report which files you changed.Git to Twoje cofnij dla refaktorów napędzanych przez AI. Rozgałęź się i zacommituj, zanim spuścisz model ze smyczy, żeby nieudany przebieg dzielił od Ciebie jeden git reset.
git checkout -b ai-refactor-authgit commit -am "Checkpoint before auth refactor"
# pozwól Claude pracować, a jeśli pójdzie nie tak:git reset --hard HEAD~1Niech model raz zapisze ustalenia do pliku, a potem odwołuj się do tego pliku zamiast wyprowadzać analizę od nowa (i ponownie ładować źródło) w każdej sesji.
claude> Analyze all API endpoints and write the results to API_ANALYSIS.md.# później, w świeżej sesji:claude> Using API_ANALYSIS.md, list every endpoint missing authentication.Nie zgaduj zużycia tokenów — mierz je. Claude Code udostępnia do tego prawdziwe powierzchnie:
/usage — zużycie tokenów i wzorce wydatków wewnątrz sesji (konsoliduje starsze /cost i /stats)/context — co właśnie w tej chwili wypełnia oknoDla śledzenia w skali całego zespołu lub w czasie włącz eksport metryk OpenTelemetry. To jedyna usankcjonowana programistyczna powierzchnia metryk — nie ma API tokenów/czasu trwania na operację, które można by skryptować.
# Emituj metryki Claude Code (tokeny, koszt, liczbę sesji) przez OTLPexport CLAUDE_CODE_ENABLE_TELEMETRY=1export OTEL_METRICS_EXPORTER=otlpAlbo przypnij to w ustawieniach, aby każda sesja raportowała:
{ "env": { "CLAUDE_CODE_ENABLE_TELEMETRY": "1", "OTEL_METRICS_EXPORTER": "otlp" }}Skieruj eksporter OTLP na swój backend metryk, a otrzymasz pulpity kosztu na sesję i przepustowości tokenów z prawdziwych danych, a nie z wymyślonych tabel benchmarkowych.
Objaw: długie opóźnienia przed każdą odpowiedzią.
Ratunek:
/context, aby zobaczyć, co wypełnia okno./clear, jeśli dominują załadowane pliki; załaduj ponownie tylko potrzebne katalogi flagą --add-dir./compact z listą zachowaj/usuń, jeśli to rozmowa stanowi gros./model haiku lub sonnet) do pracy mechanicznej.Objaw: odpowiedzi stają się coraz bardziej ogólnikowe wraz z wiekiem sesji.
Ratunek:
/compact lub zacznij od nowa.opus dla naprawdę trudnego podproblemu.Objaw: okno jest pełne, a tury zawodzą lub są ucinane.
Ratunek:
/clear między niepowiązanymi zadaniami zamiast nieść wszystko dalej.CLAUDE.md, które ładują się do każdej sesji.CLAUDE.md trzymane krótko i zawężone do swojego poddrzewa--add-dir zamiast ładowania całego repo/clear między niepowiązanymi zadaniami, /compact (ze wskazówkami) w obrębie długiego/usage, /context i eksport metryk OTelOptymalizacja kosztów
Zmniejsz wydatki, zachowując zyski wydajnościowe z tego przewodnika
Integracja CI/CD
Zastosuj te wzorce w zautomatyzowanych, bezgłowych potokach
Skalowanie zespołu
Wzorce wydajności dla dużych zespołów dzielących bazę kodu