Przejdź do głównej zawartości

Monitorowanie Użycia i Optymalizacja Kosztów

Twój zespół finansowy chce wiedzieć, ile kosztuje Claude Code na developera miesięcznie. Twój manager inżynieryjny chce wiedzieć, które zespoły uzyskują największą wartość. Twój zespół bezpieczeństwa chce logów audytowych. Bez telemetrii zgadujesz. Z OpenTelemetry masz dashboardy odpowiadające na każde pytanie.

  • Konfiguracja OpenTelemetry dla metryk i logowania zdarzeń
  • Komenda /cost i linia statusu dla indywidualnego śledzenia
  • Zarządzanie kosztami zespołowymi z limitami workspace i rate limiting
  • Strategie redukcji tokenów obniżające koszty bez zmniejszania efektywności
  • Praktyczny framework do mierzenia ROI Claude Code

Każdy developer może śledzić koszty swojej sesji w czasie rzeczywistym:

/cost

Wynik:

Total cost: $0.55
Total duration (API): 6m 19.7s
Total duration (wall): 6h 33m 10.2s
Total code changes: 42 lines added, 18 lines removed

Dla ciągłej widoczności skonfiguruj swoją linię statusu tak, aby pokazywała użycie tokenów. Zobacz dokumentację linii statusu dla opcji konfiguracji.

Na podstawie opublikowanych danych Anthropic:

MetrykaWartość
Średni koszt na developera dziennie$6
90. percentyl kosztu dziennego$12
Średnia miesięczna (Sonnet)$100-200/developer
Średnia miesięczna (intensywne użycie Opus)$300-500/developer
Okno terminala
# Włącz telemetrię
export CLAUDE_CODE_ENABLE_TELEMETRY=1
# Skonfiguruj eksporter OTLP
export OTEL_METRICS_EXPORTER=otlp
export OTEL_LOGS_EXPORTER=otlp
export OTEL_EXPORTER_OTLP_PROTOCOL=grpc
export OTEL_EXPORTER_OTLP_ENDPOINT=http://localhost:4317
# Opcjonalnie: uwierzytelnianie
export OTEL_EXPORTER_OTLP_HEADERS="Authorization=Bearer your-token"
# Uruchom Claude Code
claude

Wdróż przez ustawienia zarządzane, aby każdy developer automatycznie raportował telemetrię:

{
"env": {
"CLAUDE_CODE_ENABLE_TELEMETRY": "1",
"OTEL_METRICS_EXPORTER": "otlp",
"OTEL_LOGS_EXPORTER": "otlp",
"OTEL_EXPORTER_OTLP_PROTOCOL": "grpc",
"OTEL_EXPORTER_OTLP_ENDPOINT": "http://collector.company.com:4317",
"OTEL_EXPORTER_OTLP_HEADERS": "Authorization=Bearer company-token"
}
}

Wszystkie nazwy metryk i zdarzeń są opatrzone przestrzenią nazw claude_code. — używaj pełnej nazwy podczas budowania zapytań dashboardów, w przeciwnym razie Twoje filtry nie zadziałają.

MetrykaTypCo Śledzi
claude_code.session.countCounterUruchomione sesje
claude_code.lines_of_code.countCounterLinie dodane/usunięte przez Claude’a
claude_code.pull_request.countCounterUtworzone PR-y
claude_code.commit.countCounterWykonane commity
claude_code.cost.usageCounterKoszt w dolarach wywołań API
claude_code.token.usageCounterTokeny wejściowe i wyjściowe
claude_code.code_edit_tool.decisionCounterDecyzje zezwolenia/odmowy narzędzia edycji
claude_code.active_time.totalCounterAktywny czas sesji w sekundach
ZdarzenieCo Przechwytuje
claude_code.user_promptKiedy prompty są wysyłane (zawartość opcjonalna przez OTEL_LOG_USER_PROMPTS=1)
claude_code.tool_resultWyniki wywołań narzędzi i rezultaty
claude_code.api_requestSzczegóły wywołań API (model, tokeny, opóźnienie)
claude_code.api_errorBłędy API i rate limity
claude_code.tool_decisionDecyzje uprawnień dla wywołań narzędzi

Dla użytkowników API ustaw limity wydatków na poziomie workspace w Konsoli Anthropic:

  1. Przejdź do console.anthropic.com
  2. Przejdź do swojego workspace Claude Code (auto-utworzonego przy pierwszym uwierzytelnieniu)
  3. Ustaw miesięczne limity wydatków dla workspace
Rozmiar ZespołuTPM na UżytkownikaRPM na Użytkownika
1-5200k-300k5-7
5-20100k-150k2.5-3.5
20-5050k-75k1.25-1.75
50-10025k-35k0.62-0.87
100-50015k-20k0.37-0.47

TPM na użytkownika maleje z rozmiarem zespołu, ponieważ nie wszyscy użytkownicy są aktywni jednocześnie.

Rozmiar kontekstu bezpośrednio wpływa na koszt. Każda wiadomość zawiera pełną historię konwersacji.

  • Czyść między zadaniami: /clear przy przełączaniu na niepowiązaną pracę
  • Używaj targetowanej kompaktacji: /compact Keep test output and code changes. Summarize discussion.
  • Dodaj instrukcje kompaktacji do CLAUDE.md:
    # Compact instructions
    When compacting, preserve test output, error traces, and file paths. Summarize discussion and reasoning.
ZadanieZalecany ModelDlaczego
Code reviewSonnetWystarczająco dobry, znacznie tańszy
Naprawy bugówSonnetWiększość bugów nie wymaga rozumowania na poziomie Opus
Decyzje architektoniczneOpusZłożone wieloetapowe rozumowanie korzysta z Opus
Złożone refaktoringi wielu plików, budowanie od zeraFable 5Szczytowa inteligencja; używaj gdy jakość i szybkość ważniejsze niż budżet
Proste edycje plikówSonnet (lub Haiku dla subagentów)Przesada używać Opus
Audyty bezpieczeństwaOpusNiuansowana analiza wymaga głębszego rozumowania

Zobacz porównanie modeli dla szczegółów cenowych. Fable 5 kosztuje $10/$50 za milion tokenów (wejście/wyjście) — dokładnie 2× Opus 4.8.

Przełączaj modele w trakcie sesji za pomocą /model lub ustaw domyślne w /config.

Każdy serwer MCP dodaje definicje narzędzi do Twojego kontekstu, zużywając tokeny nawet gdy jest nieaktywny:

  • Uruchom /context aby zobaczyć co zużywa miejsce
  • Wyłącz nieużywane serwery za pomocą /mcp
  • Preferuj narzędzia CLI (gh, aws, gcloud) nad serwerami MCP gdy to możliwe
  • Ustaw ENABLE_TOOL_SEARCH=auto:5, aby uruchamiać wyszukiwanie narzędzi MCP, gdy definicje narzędzi przekraczają 5% okna kontekstu (domyślny próg to 10%). Odroczone narzędzia wchodzą do kontekstu dopiero gdy są faktycznie użyte, więc niższy próg przycina nieaktywne definicje

Subagenci mają własne okna kontekstu. Używaj ich do:

  • Gadatliwych operacji (czytanie wielu plików, uruchamianie zestawów testów)
  • Równoległych zadań, które inaczej rozdęłyby główny kontekst
  • Powtarzalnych operacji (stosowanie tej samej zmiany w wielu plikach)

Konfiguruj subagentów z tańszymi modelami. Używaj model: haiku dla trywialnych subagentów (mechaniczne edycje, skanowanie plików) i model: sonnet dla tych, które potrzebują prawdziwego rozumowania:

---
model: haiku
---

Kilka dodatkowych pokręteł z aktualnych wytycznych dotyczących kosztów:

  • Zainstaluj wtyczki inteligencji kodu dla języków typowanych: dają Claude’owi precyzyjną nawigację po symbolach zamiast grep-a i czytania wielu plików, ograniczając eksploracyjne wydatki tokenów na bazach kodu TypeScript, Go, Rust i podobnych.
  • Przenieś instrukcje specyficzne dla workflow z CLAUDE.md do skilli: CLAUDE.md ładuje się na początku sesji, więc szczegółowe instrukcje code review PR czy migracji kosztują tokeny nawet przy niepowiązanej pracy. Skille ładują się na żądanie tylko gdy są wywoływane. Staraj się trzymać CLAUDE.md poniżej ~500 linii.
  • Dostrój budżet rozszerzonego myślenia: tokeny myślenia są rozliczane jako wyjściowe. Dla prostszych zadań obniż poziom wysiłku w /model, wyłącz myślenie w /config lub ogranicz budżet za pomocą MAX_THINKING_TOKENS (na przykład MAX_THINKING_TOKENS=8000).

Dane telemetryczne nie pojawiają się: Sprawdź czy CLAUDE_CODE_ENABLE_TELEMETRY=1 jest ustawione. Zweryfikuj, że endpoint OTLP jest osiągalny z maszyn developerów. Domyślny interwał eksportu to 60 sekund dla metryk — poczekaj przynajmniej tyle przed debugowaniem.

Koszty wyższe niż oczekiwano: Sprawdź /context aby zobaczyć co zużywa miejsce. Duże konfiguracje serwerów MCP lub rozdęte pliki automatycznej pamięci pompują każde żądanie. Sprawdź także sesje, które nigdy nie zostały wyczyszczone — nieaktualny kontekst się kumuluje.

Rate limity osiągane podczas okresów wysokiego użycia: Wytyczne TPM na użytkownika zakładają średnią współbieżność. Podczas sesji szkoleniowych lub wydarzeń onboardingowych tymczasowo zwiększ limity lub rozłóż użycie.

Koszty Bedrock/Vertex nie śledzone: Claude Code nie wysyła metryk od Twojego dostawcy chmury. Użyj LiteLLM lub własnego śledzenia kosztów dostawcy chmury dla rozliczeń Bedrock/Vertex.