Routing modeli — Opus/Sonnet/Haiku per zadanie

Q3 · Narzędzia i subskrypcja Jak wybierasz model do zadania (Opus / Sonnet / Haiku / GPT-5 / Gemini)?

Maksymalna odpowiedź: “Miksuję modele w obrębie sesji — subagenty na Haiku/Sonnet, planowanie na Opus, fallback na innych vendorów.”

Dlaczego to ważne w 2026

Rynek modeli frontier zmienia się na tyle szybko, że workflow przypięty do jednego modelu zaczyna dryfować. Haiku 4.5 ($1/$5 za MTok) nadaje się do scope’owanych subagentów, codemodów i hurtowych edycji; Opus 4.8 ($5/$25) i Fable 5 pokrywają trudniejsze planowanie; GPT-5.6 i Gemini dają fallback cross-vendor. Routuj według zmierzonego dopasowania do zadania, łącznej liczby tokenów, opóźnienia i dostępności zamiast zakładać, że jeden model wygrywa każde obciążenie.

Jak naprawdę wygląda maksymalny wynik

Pełne punkty za Q3 dostajesz tylko wtedy, gdy wszystkie cztery poniższe są prawdziwe w obrębie jednego dnia pracy:

Planowanie chodzi na Fable 5 albo Opus 4.8. Gdy wchodzisz w Plan mode dla nietrywialnej zmiany, modelem planistą jest claude-fable-5 albo claude-opus-4-8, nie Sonnet — odpal /model fable przed Plan mode, gdy zadanie tego wymaga. Decyzje architektoniczne, refaktory multi-file, debugowanie przez cały stack — to są wywołania, gdzie droższy model-planista zwraca się wielokrotnie.
W tej polityce routingu egzekucja domyślnie działa na Sonnet 5. Twój normalny coding loop — czytaj pliki, edytuj, odpal testy, popraw — chodzi na claude-sonnet-5. Bieżąca cena premierowa to $2/$10 do 31 sierpnia, a potem $3/$15; wyniki benchmarków zależą od harnessu i effort.
Scope’owane subagenty testują Haiku 4.5 jawnie. Przypnij wybrane explorery, agenty triage albo doc writerów do claude-haiku-4-5, a następnie porównaj zaakceptowany output, retry i łączne tokeny z modelem dziedziczonym. Niższy rate card nie gwarantuje jakości na poziomie zadania.
Masz skonfigurowany fallback cross-vendor. GPT-5.6 Sol, Gemini 3.1 Pro lub oba są podpięte przez OpenRouter, flagę external-provider w Claude Code, model picker Cursora lub router typu AI.cc — i faktycznie użyłeś ich przynajmniej raz w tym miesiącu, gdy Anthropic był degraded albo gdy zadanie grało pod ich mocne strony (duży multimodal context, agentic browser execution).

W snapshotcie Artificial Analysis Coding Agent Index v1.1 z 11 lipca Fable 5 + Claude Code uzyskał wynik wyższy niż Opus 4.8 + Claude Code, ale nie wyznacza to uniwersalnego routingu. Jednym opiniowanym wzorcem jest Fable do trudnego planowania lub finalnej weryfikacji, a Opus/Sonnet do implementacji. Subagenty mogą dziedziczyć model rodzica, jeśli nie przypniesz ich jawnie, dlatego sprawdzaj faktyczną konfigurację i koszt.

Cokolwiek mniej — “zawsze używam Opusa” albo “tylko Sonnet” albo “wciąż mam zamiar postawić fallback” — to mid-tier na Q3.

Aktualny krajobraz (zweryfikowany przez web search)

Rodzina Claude w 2026

Linia Anthropica ma teraz cztery tiery — 9 czerwca 2026 nad Opusem pojawił się Fable 5 — a różnica między znajomą trójką dramatycznie się skurczyła; i to właśnie czyni routing wartościowym.

Fable 5 (claude-fable-5) za $10 input / $50 output za milion tokenów — dokładnie 2× Opus 4.8. Tier powyżej Opusa świetnie radzi sobie ze złożonymi refaktorami multi-file, naprawianiem błędów, budowaniem od zera i zadaniami long-running. Wrócił globalnie 1 lipca; po tymczasowym wliczeniu do 7 lipca wymaga usage credits w kwalifikujących się planach płatnych.
Opus 4.8 (claude-opus-4-8) za $5 input / $25 output za milion tokenów. Najmocniejszy planista premium poniżej Fable 5. Świetne rozumowanie long-horizon i refaktory multi-file. Jest defaultem konta na Max, Team Premium, Enterprise pay-as-you-go i w sesjach Anthropic API; polityka organizacji może nadpisać tę mapę, a defaulty zarządzanych chmur są inne.
Sonnet 5 (claude-sonnet-5) w cenie premierowej $2 input / $10 output do 31 sierpnia, a potem $3/$15. To rekomendowany daily driver w tym przewodniku oraz default konta na Pro, Team Standard i subskrypcyjnych miejscach Enterprise. Artificial Analysis zwraca uwagę, że duża rozwlekłość może sprawić, iż run max kosztuje więcej na oceniane zadanie niż Opus 4.8 przy stawkach standardowych; monitoruj całkowitą liczbę tokenów, nie tylko rate card.
Haiku 4.5 (claude-haiku-4-5) za $1 input / $5 output. Szybki, tani, zaskakująco zdolny. Mocny w klasyfikacji, summarization, dobrze opisanych edycjach i hurtowej pracy równoległej. Bezdyskusyjnie właściwy wybór do subagentów i codemodów.

Opus 4.8 i Sonnet 5 mają pełne 1M-tokenowe okno kontekstu w cenie z rate carda — bez dopłaty za long-context; Haiku 4.5 dobija do 200K tokenów (wciąż dość duże na większość triage passów w obrębie jednego pakietu). To zmienia matematykę routingu: możesz oddać Sonnetowi albo Opusowi całe monorepo, a po Haiku sięgać na scope’owane wycinki mieszczące się w 200K, zanim zdecydujesz czy Opus w ogóle musi cokolwiek zobaczyć.

Fallbacki cross-vendor

W 2026 dominuje wzorzec “three-model frontier stack”: Claude Opus 4.8 do rygorystycznego long-running reasoning, GPT-5.6 Sol do agentic execution i tool-heavy professional knowledge work, Gemini 3.1 Pro do multimodal synthesis i analizy w ogromnym kontekście. Każdy wygrywa na innych zadaniach, a ceny spadły 40–80% rok do roku — czyli prowadzenie 2–3 vendorów to dziś w pełni mieści się w budżecie poważnego solo developera.

GPT-5.6 Sol — najmocniejszy w długich pętlach agentic, łańcuchach tool-use i strukturyzowanych outputach. Często lepszy wybór, gdy model ma sterować przeglądarką lub walić w API przez godzinę bez utraty wątku.
Gemini 3.1 Pro / 2.5 Pro — najmocniejszy w multimodal (image + code + PDF), ogromnych oknach kontekstu i zadaniach w ekosystemie Google. Wyciągaj go do zadań, gdzie trzeba podać modelowi screenshot z Figmy plus 200k tokenów kodu.
OpenRouter / AI.cc — jedna powierzchnia API, która abstrahuje providera. Przełączanie między GPT-5.6 Sol, Claude Opus 4.8, Gemini 3.1 Pro, DeepSeek V4, Llama 4, Qwen 3.6-Plus to tylko parametr model, a te routery automatycznie zrobią fallback, gdy primary padnie.

Kiedy przełączać vendorów

Nie “zawsze”, ale świadomie:

Anthropic jest degraded. Status page na czerwono, sesje timeoutują, tool calls failują — flip na GPT-5.6 Sol przez Cursora lub alias w OpenRouter i shipuj dalej.
Zadanie gra pod mocną stronę non-Anthropic. Pixel-perfect Figma-to-code ze screenshota? Gemini. Długi autonomous browser agent, który musi pozostać spójny przez 200 kroków? GPT-5.6 Sol z jego tuningiem agent-mode.
Chcesz second opinion. Dla decyzji architektonicznych high-stakes zapytanie o ten sam plan na Opusa i GPT-5.6 Sol, a potem zrobienie diffa odpowiedzi to tania forma redundancji.
Jesteś price-sensitive na konkretnym loopie. DeepSeek V4 i Qwen 3.6-Plus podcinają nawet Haiku na niektórych zadaniach; jeśli masz high-volume low-judgment loop (np. tłumaczenie commit messages), routing na jeden z nich przez OpenRouter ścina rachunek o połowę raz jeszcze.

Wdrożenie krok po kroku

Wybierz trzy tiery i przypisz je. Spisz to — dosłownie, w MODELS.md w swoich dotfiles — który model robi planowanie, egzekucję i bulk/parallel work. Domyślny punkt startowy: Fable 5 lub Opus 4.8 do planowania, Sonnet 5 do egzekucji, Haiku 4.5 do subagentów.
Skonfiguruj daily route właściwy dla narzędzia. Claude Code może przypiąć Sonnet 5 przez claude --model claude-sonnet-5; Cursor może używać Auto lub ręcznie wybranego dostępnego modelu; Codex powinien routować w rodzinie GPT-5.6 zamiast udawać, że slug Claude jest defaultem OpenAI. Traktuj Sonnet-do-egzekucji jako hipotezę startową tego przewodnika i zweryfikuj ją na własnym workloadzie.
Oceń Fable lub Opus przy trudnym planowaniu. W Claude Code użyj /model przed Plan mode, gdy architektura, niejednoznaczność albo reasoning cross-service uzasadniają droższy model. Sama liczba plików nie jest wiarygodnym progiem. Porównaj plan i rework z Sonnetem przed standaryzacją routingu.
Przetestuj Haiku na scope’owanych subagentach. Zdefiniuj wybrane explorery, agenty triage albo doc writerów z model: claude-haiku-4-5. Porównaj łączne tokeny, opóźnienie, zaakceptowane znaleziska i retry z Sonnetem; niższy rate card nie gwarantuje stałej oszczędności zadania ani równej jakości.
Skonfiguruj przynajmniej jeden fallback cross-vendor. Dwie proste drogi: (a) załóż konto na OpenRouter, ustaw OPENROUTER_API_KEY i dodaj openrouter/openai/gpt-5.6-sol oraz openrouter/google/gemini-3.1-pro jako alternaty w configu; (b) w Cursorze po prostu włącz providerów OpenAI i Google w model pickerze. Tak czy siak — użyj ich raz w tym tygodniu, by powstała pamięć mięśniowa.
Ustaw twardy budżet per model. W swoim cost dashboardzie (Anthropic Console, OpenRouter, AI.cc) ustaw alerty per model: Opus na $X/dzień, Sonnet na $Y/dzień, Haiku na $Z/dzień. Gdy alerty Opusa się odpalają, to zwykle znak, że używasz go do egzekucji, gdzie wystarczyłby Sonnet.
Przeglądaj mix raz w tygodniu. Porównuj udział modeli z wynikami zadań. Ustal progi z własnego baseline’u; żaden uniwersalny procent nie dowodzi nadmiernego ani zbyt małego użycia.
Reroutuj, gdy zmieniają się dowody. Sprawdzaj karty modeli dostawców i jawnie wersjonowany Artificial Analysis Coding Agent Index, a potem powtarzaj własny zestaw zadań. Nie porównuj przestarzałych nazw benchmarków ani wyników z różnych harnessów tak, jakby tworzyły jeden leaderboard.

Częste pułapki

Default na jeden model premium bez pomiaru. Wyższy rate card może szybciej wyczerpać plan, a tańszy model może wymagać retry. Routuj według zaakceptowanych wyników i łącznych tokenów.
Traktowanie proporcji rate card jak proporcji kosztu zadania. Fable 5 kosztuje $10/$50, a Opus 4.8 $5/$25 za MTok, ale długość zadania, cache, tool calls i rework określają faktyczny mnożnik.
Zakładanie, że jeden model posiada planowanie. Porównuj trudne plany na modelach dostępnych dla konta i przypinaj routing dopiero, gdy wspiera go twój eval set.
Zakładanie, że każdy subagent powinien używać najtańszego modelu. Scope’uj tańsze modele świadomie i zachowaj fallback jakościowy dla zadań, na których własne ewaluacje pokazują braki.
Brak skonfigurowanego fallbacku. Gdy Anthropic ma 4-godzinny incident — a będzie miał, każdy vendor ma — tracisz pół dnia. Alias gpt-5.6-sol w configu to darmowe ubezpieczenie.
Wnioskowanie o koszcie wyłącznie z rate card. Tokenizacja, reasoning, kontekst, tool calls i cache zmieniają koszt całkowity. Mierz użycie na reprezentatywnych zadaniach.

Jak sprawdzić, czy już tam jesteś

Potrafisz z pamięci wymienić, który model Claude robi planowanie, egzekucję i subagenty w Twoim setupie — i nie są to wszystkie te same.
Skoro tiery są teraz cztery, wiesz, który robi planowanie — Fable 5 (/model fable), gdy zadanie tego wymaga, w pozostałych przypadkach Opus 4.8.
Twój tool config (~/.claude/settings.json, ustawienia Cursora albo Codex config.toml) ma jawne wpisy modeli — nie tylko defaulty.
Przynajmniej jeden subagent w projekcie chodzi na claude-haiku-4-5.
Przynajmniej jeden non-Anthropic provider (OpenAI, Google lub OpenRouter) jest podpięty, a Ty użyłeś go przynajmniej raz w tym miesiącu.
Sprawdziłeś swój spend per model z ostatnich 7 dni i dystrybucja mniej więcej pasuje do wzorca: Sonnet większość, Haiku ~20–30%, Opus ~10–20%.
Masz spisaną regułę (w CLAUDE.md, dotfiles albo team handbooku), kiedy przełączyć z Sonnet na Opus i kiedy fan-outować na Haiku.
Możesz przełączyć domyślny model jedną zmianą w configu, a nie wielogodzinną migracją — warstwa routingu jest pod Twoją kontrolą, a nie wspawana w prompty.

Dalsza lektura

Q1 · Główne narzędzie AI Wybierz narzędzie, które pozwala podmieniać model per wywołanie — Claude Code, Codex CLI, Cursor Agents.

Q2 · Dopasowanie planu Dobierz plan Anthropic tak, by faktycznie odpalać Opusa do planowania bez rate limitów.

Q21 · Monitoring kosztów Alerty, hard caps i świadomy routing tańszych modeli do drogich pętli.

Zrób Developer Scorecard Oceń się na wszystkich 25 pytaniach w ~10 minut.