Monitorowanie Użycia i Optymalizacja Kosztów
Twój zespół finansowy chce wiedzieć, ile kosztuje Claude Code na developera miesięcznie. Twój manager inżynieryjny chce wiedzieć, które zespoły uzyskują największą wartość. Twój zespół bezpieczeństwa chce logów audytowych. Bez telemetrii zgadujesz. Z OpenTelemetry masz dashboardy odpowiadające na każde pytanie.
Co Wyniesiecie z Tego Rozdziału
Dział zatytułowany „Co Wyniesiecie z Tego Rozdziału”- Konfiguracja OpenTelemetry dla metryk i logowania zdarzeń
- Komenda
/costi linia statusu dla indywidualnego śledzenia - Zarządzanie kosztami zespołowymi z limitami workspace i rate limiting
- Strategie redukcji tokenów obniżające koszty bez zmniejszania efektywności
- Praktyczny framework do mierzenia ROI Claude Code
Indywidualne Śledzenie Kosztów
Dział zatytułowany „Indywidualne Śledzenie Kosztów”Komenda /cost
Dział zatytułowany „Komenda /cost”Każdy developer może śledzić koszty swojej sesji w czasie rzeczywistym:
/costWynik:
Total cost: $0.55Total duration (API): 6m 19.7sTotal duration (wall): 6h 33m 10.2sTotal code changes: 42 lines added, 18 lines removedDla ciągłej widoczności skonfiguruj swoją linię statusu tak, aby pokazywała użycie tokenów. Zobacz dokumentację linii statusu dla opcji konfiguracji.
Typowe Zakresy Kosztów
Dział zatytułowany „Typowe Zakresy Kosztów”Na podstawie opublikowanych danych Anthropic:
| Metryka | Wartość |
|---|---|
| Średni koszt na developera dziennie | $6 |
| 90. percentyl kosztu dziennego | $12 |
| Średnia miesięczna (Sonnet) | $100-200/developer |
| Średnia miesięczna (intensywne użycie Opus) | $300-500/developer |
Konfiguracja OpenTelemetry
Dział zatytułowany „Konfiguracja OpenTelemetry”Szybki Start
Dział zatytułowany „Szybki Start”# Włącz telemetrięexport CLAUDE_CODE_ENABLE_TELEMETRY=1
# Skonfiguruj eksporter OTLPexport OTEL_METRICS_EXPORTER=otlpexport OTEL_LOGS_EXPORTER=otlpexport OTEL_EXPORTER_OTLP_PROTOCOL=grpcexport OTEL_EXPORTER_OTLP_ENDPOINT=http://localhost:4317
# Opcjonalnie: uwierzytelnianieexport OTEL_EXPORTER_OTLP_HEADERS="Authorization=Bearer your-token"
# Uruchom Claude CodeclaudeWdrożenie na Poziomie Organizacji
Dział zatytułowany „Wdrożenie na Poziomie Organizacji”Wdróż przez ustawienia zarządzane, aby każdy developer automatycznie raportował telemetrię:
{ "env": { "CLAUDE_CODE_ENABLE_TELEMETRY": "1", "OTEL_METRICS_EXPORTER": "otlp", "OTEL_LOGS_EXPORTER": "otlp", "OTEL_EXPORTER_OTLP_PROTOCOL": "grpc", "OTEL_EXPORTER_OTLP_ENDPOINT": "http://collector.company.com:4317", "OTEL_EXPORTER_OTLP_HEADERS": "Authorization=Bearer company-token" }}Dostępne Metryki
Dział zatytułowany „Dostępne Metryki”Wszystkie nazwy metryk i zdarzeń są opatrzone przestrzenią nazw claude_code. — używaj pełnej nazwy podczas budowania zapytań dashboardów, w przeciwnym razie Twoje filtry nie zadziałają.
| Metryka | Typ | Co Śledzi |
|---|---|---|
claude_code.session.count | Counter | Uruchomione sesje |
claude_code.lines_of_code.count | Counter | Linie dodane/usunięte przez Claude’a |
claude_code.pull_request.count | Counter | Utworzone PR-y |
claude_code.commit.count | Counter | Wykonane commity |
claude_code.cost.usage | Counter | Koszt w dolarach wywołań API |
claude_code.token.usage | Counter | Tokeny wejściowe i wyjściowe |
claude_code.code_edit_tool.decision | Counter | Decyzje zezwolenia/odmowy narzędzia edycji |
claude_code.active_time.total | Counter | Aktywny czas sesji w sekundach |
Dostępne Zdarzenia
Dział zatytułowany „Dostępne Zdarzenia”| Zdarzenie | Co Przechwytuje |
|---|---|
claude_code.user_prompt | Kiedy prompty są wysyłane (zawartość opcjonalna przez OTEL_LOG_USER_PROMPTS=1) |
claude_code.tool_result | Wyniki wywołań narzędzi i rezultaty |
claude_code.api_request | Szczegóły wywołań API (model, tokeny, opóźnienie) |
claude_code.api_error | Błędy API i rate limity |
claude_code.tool_decision | Decyzje uprawnień dla wywołań narzędzi |
Zarządzanie Kosztami Zespołowymi
Dział zatytułowany „Zarządzanie Kosztami Zespołowymi”Limity Wydatków Workspace
Dział zatytułowany „Limity Wydatków Workspace”Dla użytkowników API ustaw limity wydatków na poziomie workspace w Konsoli Anthropic:
- Przejdź do console.anthropic.com
- Przejdź do swojego workspace Claude Code (auto-utworzonego przy pierwszym uwierzytelnieniu)
- Ustaw miesięczne limity wydatków dla workspace
Wytyczne Rate Limit
Dział zatytułowany „Wytyczne Rate Limit”| Rozmiar Zespołu | TPM na Użytkownika | RPM na Użytkownika |
|---|---|---|
| 1-5 | 200k-300k | 5-7 |
| 5-20 | 100k-150k | 2.5-3.5 |
| 20-50 | 50k-75k | 1.25-1.75 |
| 50-100 | 25k-35k | 0.62-0.87 |
| 100-500 | 15k-20k | 0.37-0.47 |
TPM na użytkownika maleje z rozmiarem zespołu, ponieważ nie wszyscy użytkownicy są aktywni jednocześnie.
Strategie Redukcji Tokenów
Dział zatytułowany „Strategie Redukcji Tokenów”Zarządzaj Kontekstem Proaktywnie
Dział zatytułowany „Zarządzaj Kontekstem Proaktywnie”Rozmiar kontekstu bezpośrednio wpływa na koszt. Każda wiadomość zawiera pełną historię konwersacji.
- Czyść między zadaniami:
/clearprzy przełączaniu na niepowiązaną pracę - Używaj targetowanej kompaktacji:
/compact Keep test output and code changes. Summarize discussion. - Dodaj instrukcje kompaktacji do CLAUDE.md:
# Compact instructionsWhen compacting, preserve test output, error traces, and file paths. Summarize discussion and reasoning.
Wybierz Właściwy Model
Dział zatytułowany „Wybierz Właściwy Model”| Zadanie | Zalecany Model | Dlaczego |
|---|---|---|
| Code review | Sonnet | Wystarczająco dobry, znacznie tańszy |
| Naprawy bugów | Sonnet | Większość bugów nie wymaga rozumowania na poziomie Opus |
| Decyzje architektoniczne | Opus | Złożone wieloetapowe rozumowanie korzysta z Opus |
| Złożone refaktoringi wielu plików, budowanie od zera | Fable 5 | Szczytowa inteligencja; używaj gdy jakość i szybkość ważniejsze niż budżet |
| Proste edycje plików | Sonnet (lub Haiku dla subagentów) | Przesada używać Opus |
| Audyty bezpieczeństwa | Opus | Niuansowana analiza wymaga głębszego rozumowania |
Zobacz porównanie modeli dla szczegółów cenowych. Fable 5 kosztuje $10/$50 za milion tokenów (wejście/wyjście) — dokładnie 2× Opus 4.8.
Przełączaj modele w trakcie sesji za pomocą /model lub ustaw domyślne w /config.
Zmniejsz Narzut Serwerów MCP
Dział zatytułowany „Zmniejsz Narzut Serwerów MCP”Każdy serwer MCP dodaje definicje narzędzi do Twojego kontekstu, zużywając tokeny nawet gdy jest nieaktywny:
- Uruchom
/contextaby zobaczyć co zużywa miejsce - Wyłącz nieużywane serwery za pomocą
/mcp - Preferuj narzędzia CLI (
gh,aws,gcloud) nad serwerami MCP gdy to możliwe - Ustaw
ENABLE_TOOL_SEARCH=auto:5, aby uruchamiać wyszukiwanie narzędzi MCP, gdy definicje narzędzi przekraczają 5% okna kontekstu (domyślny próg to 10%). Odroczone narzędzia wchodzą do kontekstu dopiero gdy są faktycznie użyte, więc niższy próg przycina nieaktywne definicje
Deleguj do Subagentów
Dział zatytułowany „Deleguj do Subagentów”Subagenci mają własne okna kontekstu. Używaj ich do:
- Gadatliwych operacji (czytanie wielu plików, uruchamianie zestawów testów)
- Równoległych zadań, które inaczej rozdęłyby główny kontekst
- Powtarzalnych operacji (stosowanie tej samej zmiany w wielu plikach)
Konfiguruj subagentów z tańszymi modelami. Używaj model: haiku dla trywialnych subagentów (mechaniczne edycje, skanowanie plików) i model: sonnet dla tych, które potrzebują prawdziwego rozumowania:
---model: haiku---Więcej Dźwigni Wartych Poznania
Dział zatytułowany „Więcej Dźwigni Wartych Poznania”Kilka dodatkowych pokręteł z aktualnych wytycznych dotyczących kosztów:
- Zainstaluj wtyczki inteligencji kodu dla języków typowanych: dają Claude’owi precyzyjną nawigację po symbolach zamiast grep-a i czytania wielu plików, ograniczając eksploracyjne wydatki tokenów na bazach kodu TypeScript, Go, Rust i podobnych.
- Przenieś instrukcje specyficzne dla workflow z CLAUDE.md do skilli: CLAUDE.md ładuje się na początku sesji, więc szczegółowe instrukcje code review PR czy migracji kosztują tokeny nawet przy niepowiązanej pracy. Skille ładują się na żądanie tylko gdy są wywoływane. Staraj się trzymać CLAUDE.md poniżej ~500 linii.
- Dostrój budżet rozszerzonego myślenia: tokeny myślenia są rozliczane jako wyjściowe. Dla prostszych zadań obniż poziom wysiłku w
/model, wyłącz myślenie w/configlub ogranicz budżet za pomocąMAX_THINKING_TOKENS(na przykładMAX_THINKING_TOKENS=8000).
Kiedy To Nie Działa
Dział zatytułowany „Kiedy To Nie Działa”Dane telemetryczne nie pojawiają się: Sprawdź czy CLAUDE_CODE_ENABLE_TELEMETRY=1 jest ustawione. Zweryfikuj, że endpoint OTLP jest osiągalny z maszyn developerów. Domyślny interwał eksportu to 60 sekund dla metryk — poczekaj przynajmniej tyle przed debugowaniem.
Koszty wyższe niż oczekiwano: Sprawdź /context aby zobaczyć co zużywa miejsce. Duże konfiguracje serwerów MCP lub rozdęte pliki automatycznej pamięci pompują każde żądanie. Sprawdź także sesje, które nigdy nie zostały wyczyszczone — nieaktualny kontekst się kumuluje.
Rate limity osiągane podczas okresów wysokiego użycia: Wytyczne TPM na użytkownika zakładają średnią współbieżność. Podczas sesji szkoleniowych lub wydarzeń onboardingowych tymczasowo zwiększ limity lub rozłóż użycie.
Koszty Bedrock/Vertex nie śledzone: Claude Code nie wysyła metryk od Twojego dostawcy chmury. Użyj LiteLLM lub własnego śledzenia kosztów dostawcy chmury dla rozliczeń Bedrock/Vertex.
Co Dalej
Dział zatytułowany „Co Dalej”- Integracja Korporacyjna — Wdrożenie telemetrii na poziomie organizacji
- GitHub Actions — Śledź koszty CI obok użycia developerów
- Wskazówki Wydajności i Kosztów — 10 konkretnych wskazówek redukcji użycia tokenów