Routing modeli — Opus/Sonnet/Haiku per zadanie
Q3 · Narzędzia i subskrypcja Jak wybierasz model do zadania (Opus / Sonnet / Haiku / GPT-5 / Gemini)?
Maksymalna odpowiedź: “Miksuję modele w obrębie sesji — subagenty na Haiku/Sonnet, planowanie na Opus, fallback na innych vendorów.”
Dlaczego to ważne w 2026
Dział zatytułowany „Dlaczego to ważne w 2026”W 2026 rynek modeli frontier porusza się zbyt szybko, by przyspawać workflow do jednego modelu — Anthropic, OpenAI i Google wypuszczają nowy flagowiec mniej więcej co kwartał, a lider price/quality rotuje z każdym wydaniem. Tier cheap-fast (Haiku 4.5 za $1/$5 za milion tokenów) jest już na tyle silny, że napędza subagenty, codemody i hurtową edycję plików za ułamek kosztu Opusa, podczas gdy Opus 4.7 ($5/$25) wciąż wygrywa w planowaniu long-chain i refaktorach cross-file, które wymagają 50+ wywołań narzędzi spójnego rozumowania. Inteligentny routing między tymi tierami — i między vendorami, gdy jeden ma awarię lub jest gorszy w konkretnym zadaniu — to dziś top-3 dźwignia kosztu i jakości jednocześnie. Wybierz jeden model i tylko jego — zapłacisz 3–5× więcej niż trzeba i tracisz w te 6–12 godzin kwartalnie, gdy Twój domyślny provider ma incident. Miksuj świadomie — i ta sama sesja może odpalić 4 tanie równoległe agenty na Haiku, głęboki przegląd architektury na Opusie, a po cichu fallback na GPT-5.4 lub Gemini 3.1 Pro, gdy coś pęknie.
Jak naprawdę wygląda maksymalny wynik
Dział zatytułowany „Jak naprawdę wygląda maksymalny wynik”Pełne punkty za Q3 dostajesz tylko wtedy, gdy wszystkie cztery poniższe są prawdziwe w obrębie jednego dnia pracy:
- Planowanie chodzi na Opus 4.7. Gdy wchodzisz w Plan mode dla nietrywialnej zmiany, modelem planistą jest
claude-opus-4-7, nie Sonnet. Decyzje architektoniczne, refaktory multi-file, debugowanie przez cały stack — to są wywołania, gdzie 3× wyższa cena inputu zwraca się wielokrotnie. - Egzekucja domyślnie na Sonnet 4.6. Twój normalny coding loop — czytaj pliki, edytuj, odpal testy, popraw — chodzi na
claude-sonnet-4-6. To sweet spot: 79.6% na SWE-bench Verified za $3/$15, czyli ~97–99% jakości Opusa na zadaniach kodu przy ~40% niższym koszcie i ~17% szybszym output. - Subagenty i bulk work na Haiku 4.5. Fan-out subagentów (code-explorer, code-reviewer, doc-writer), codemody, duże refaktory z mechanicznymi edycjami, triage logów, klasyfikacja i każdy loop “przeskanuj N plików i zaraportuj” chodzi na
claude-haiku-4-5-20251001. Za $1/$5 odpalasz 5 równoległych agentów Haiku za mniej niż jedno przejście Opusem. - Masz skonfigurowany fallback cross-vendor. GPT-5.4, Gemini 3.1 Pro lub oba są podpięte przez OpenRouter, flagę external-provider w Claude Code, model picker Cursora lub router typu AI.cc — i faktycznie użyłeś ich przynajmniej raz w tym miesiącu, gdy Anthropic był degraded albo gdy zadanie grało pod ich mocne strony (duży multimodal context, agentic browser execution).
Cokolwiek mniej — “zawsze używam Opusa” albo “tylko Sonnet” albo “wciąż mam zamiar postawić fallback” — to mid-tier na Q3.
Aktualny krajobraz (zweryfikowany przez web search)
Dział zatytułowany „Aktualny krajobraz (zweryfikowany przez web search)”Rodzina Claude w 2026
Dział zatytułowany „Rodzina Claude w 2026”Linia 4.x Anthropica trzyma ten sam trójwarstwowy układ, ale różnica między tierami dramatycznie się skurczyła — i to właśnie czyni routing wartościowym.
- Opus 4.7 (
claude-opus-4-7) za $5 input / $25 output za milion tokenów. Najlepsze raw reasoning, najlepsze planowanie long-horizon, najlepszy w refaktorach multi-file, które muszą trzymać 30+ plików w kontekście. Uwaga: Opus 4.7 ma nowy tokenizer, który może wygenerować do 35% więcej tokenów dla tego samego inputu, więc realny spend per request rośnie, mimo że rate card nie zmienił się od 4.6. - Sonnet 4.6 (
claude-sonnet-4-6) za $3 input / $15 output. Domyślny daily driver. Robi 79.6% na SWE-bench Verified — kilka punktów od Opusa na większości zadań kodu, przy ~40% niższym koszcie i ~17% szybszym czasie. Jeśli w 2026 nauczysz się tylko jednej nazwy modelu, to właśnie tej. - Haiku 4.5 (
claude-haiku-4-5-20251001) za $1 input / $5 output. Szybki, tani, zaskakująco zdolny. Mocny w klasyfikacji, summarization, dobrze opisanych edycjach i hurtowej pracy równoległej. Bezdyskusyjnie właściwy wybór do subagentów i codemodów.
Wszystkie trzy mają pełne 1M-tokenowe okno kontekstu w cenie z rate carda — bez dopłaty za long-context. To zmienia matematykę routingu: możesz teraz oddać Haiku całe repo na triage pass, zanim zdecydujesz czy Opus w ogóle musi cokolwiek zobaczyć.
Fallbacki cross-vendor
Dział zatytułowany „Fallbacki cross-vendor”W 2026 dominuje wzorzec “three-model frontier stack”: Claude Opus 4.7 do rygorystycznego long-running reasoning, GPT-5.4 do agentic execution i tool-heavy professional knowledge work, Gemini 3.1 Pro do multimodal synthesis i analizy w ogromnym kontekście. Każdy wygrywa na innych zadaniach, a ceny spadły 40–80% rok do roku — czyli prowadzenie 2–3 vendorów to dziś w pełni mieści się w budżecie poważnego solo developera.
- GPT-5.4 / GPT-5.5 — najmocniejszy w długich pętlach agentic, łańcuchach tool-use i strukturyzowanych outputach. Często lepszy wybór, gdy model ma sterować przeglądarką lub walić w API przez godzinę bez utraty wątku.
- Gemini 3.1 Pro / 2.5 Pro — najmocniejszy w multimodal (image + code + PDF), ogromnych oknach kontekstu i zadaniach w ekosystemie Google. Wyciągaj go do zadań, gdzie trzeba podać modelowi screenshot z Figmy plus 200k tokenów kodu.
- OpenRouter / AI.cc — jedna powierzchnia API, która abstrahuje providera. Przełączanie między GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro, DeepSeek V4, Llama 4, Qwen 3.6-Plus to tylko parametr
model, a te routery automatycznie zrobią fallback, gdy primary padnie.
Kiedy przełączać vendorów
Dział zatytułowany „Kiedy przełączać vendorów”Nie “zawsze”, ale świadomie:
- Anthropic jest degraded. Status page na czerwono, sesje timeoutują, tool calls failują — flip na GPT-5.4 przez Cursora lub alias w OpenRouter i shipuj dalej.
- Zadanie gra pod mocną stronę non-Anthropic. Pixel-perfect Figma-to-code ze screenshota? Gemini. Długi autonomous browser agent, który musi pozostać spójny przez 200 kroków? GPT-5.4 z jego tuningiem agent-mode.
- Chcesz second opinion. Dla decyzji architektonicznych high-stakes zapytanie o ten sam plan na Opusa i GPT-5.4, a potem zrobienie diffa odpowiedzi to tania forma redundancji.
- Jesteś price-sensitive na konkretnym loopie. DeepSeek V4 i Qwen 3.6-Plus podcinają nawet Haiku na niektórych zadaniach; jeśli masz high-volume low-judgment loop (np. tłumaczenie commit messages), routing na jeden z nich przez OpenRouter ścina rachunek o połowę raz jeszcze.
Wdrożenie krok po kroku
Dział zatytułowany „Wdrożenie krok po kroku”-
Wybierz trzy tiery i przypisz je. Spisz to — dosłownie, w
MODELS.mdw swoich dotfiles — który model robi planowanie, egzekucję i bulk/parallel work. Domyślny punkt startowy: Opus 4.7 do planowania, Sonnet 4.6 do egzekucji, Haiku 4.5 do subagentów. -
Ustaw Sonnet 4.6 jako default w każdym narzędziu. Claude Code:
claude --model claude-sonnet-4-6albo wpis w~/.claude/settings.json. Cursor: model picker → Sonnet 4.6. Codex CLI:model = "claude-sonnet-4-6"w~/.codex/config.toml(lub odpowiednik u Twojego providera). To jest model, na którym będziesz siedział w ~80% czasu. -
Podłącz Opusa pod Plan mode. W Claude Code użyj slash command
/model, by przełączyć na Opusa przed wejściem w Plan mode dla czegokolwiek nietrywialnego (cokolwiek dotykającego >3 plików, nowa architektura, debug cross-services). Wychodząc z Plan mode i zaczynając egzekucję — wracaj na Sonnet. -
Zepchnij subagenty na Haiku. Zdefiniuj swoje subagenty (code-reviewer, code-explorer, doc-writer, refactor-bot) z
model: claude-haiku-4-5-20251001we frontmatterze. Orchestrator zostaje na Sonnet; fan-out chodzi na Haiku. Typowo zaoszczędzisz 60–80% kosztu per zadanie bez straty jakości. -
Skonfiguruj przynajmniej jeden fallback cross-vendor. Dwie proste drogi: (a) załóż konto na OpenRouter, ustaw
OPENROUTER_API_KEYi dodajopenrouter/openai/gpt-5.4orazopenrouter/google/gemini-3.1-projako alternaty w configu; (b) w Cursorze po prostu włącz providerów OpenAI i Google w model pickerze. Tak czy siak — użyj ich raz w tym tygodniu, by powstała pamięć mięśniowa. -
Ustaw twardy budżet per model. W swoim cost dashboardzie (Anthropic Console, OpenRouter, AI.cc) ustaw alerty per model: Opus na $X/dzień, Sonnet na $Y/dzień, Haiku na $Z/dzień. Gdy alerty Opusa się odpalają, to zwykle znak, że używasz go do egzekucji, gdzie wystarczyłby Sonnet.
-
Przeglądaj mix raz w tygodniu. Otwieraj dashboard spendu w każdy piątek. Jeśli Opus to >25% Twojego spendu, prawdopodobnie używasz go za dużo na egzekucję. Jeśli Haiku to <10%, prawdopodobnie za mało fan-outujesz subagenty.
-
Reroutuj, gdy leaderboard się zmieni. Mniej więcej raz na kwartał nowy release modelu przemiesza ranking best-for-task. Sprawdź ponownie leaderboardy SWE-bench Verified i Terminal-Bench Hard i zaktualizuj swoje przypisania tierów. Cała pointa tego setupu jest taka, że re-routing to zmiana configu w jednej linii, a nie migracja.
Częste pułapki
Dział zatytułowany „Częste pułapki”- Default na Opusa do wszystkiego “bo on jest mądry”. Spalisz swój plan Anthropica w kilka dni. Opus jest do planowania i ciężkiego debugu — nie do loopa, który poprawia literówkę i odpala testy.
- Default na Sonnet także do planowania. Sonnet 4.6 jest szokująco blisko Opusa na egzekucji, ale luka otwiera się ponownie na planowaniu long-horizon i rozumowaniu architektonicznym. Zapłać 3× za plan; odzyskaj to z powrotem na egzekucji.
- Subagenty na tym samym modelu, co orchestrator. Jeśli Twój code-reviewer subagent chodzi na Sonnet, płacisz 3× za review przy ~zerowym zysku jakości względem Haiku 4.5, który już jest w klasie Sonnet 4 dla pracy review/triage.
- Brak skonfigurowanego fallbacku. Gdy Anthropic ma 4-godzinny incident — a będzie miał, każdy vendor ma — tracisz pół dnia. Alias
gpt-5.4w configu to darmowe ubezpieczenie. - Ignorowanie zmiany tokenizera w Opus 4.7. Te same prompty mogą teraz kosztować 25–35% więcej na Opus 4.7 vs 4.6 z powodu tego, jak nowy tokenizer dzieli kod. Patrz na rachunek, nie tylko na opublikowany rate card.
Jak sprawdzić, czy już tam jesteś
Dział zatytułowany „Jak sprawdzić, czy już tam jesteś”- Potrafisz z pamięci wymienić, który model Claude robi planowanie, egzekucję i subagenty w Twoim setupie — i nie są to wszystkie te same.
- Twój tool config (
~/.claude/settings.json, ustawienia Cursora albo Codexconfig.toml) ma jawne wpisy modeli — nie tylko defaulty. - Przynajmniej jeden subagent w projekcie chodzi na
claude-haiku-4-5-20251001. - Przynajmniej jeden non-Anthropic provider (OpenAI, Google lub OpenRouter) jest podpięty, a Ty użyłeś go przynajmniej raz w tym miesiącu.
- Sprawdziłeś swój spend per model z ostatnich 7 dni i dystrybucja mniej więcej pasuje do wzorca: Sonnet większość, Haiku ~20–30%, Opus ~10–20%.
- Masz spisaną regułę (w
CLAUDE.md, dotfiles albo team handbooku), kiedy przełączyć z Sonnet na Opus i kiedy fan-outować na Haiku. - Możesz przełączyć domyślny model jedną zmianą w configu, a nie wielogodzinną migracją — warstwa routingu jest pod Twoją kontrolą, a nie wspawana w prompty.