Przejdź do głównej zawartości

Routing modeli — Opus/Sonnet/Haiku per zadanie

Q3 · Narzędzia i subskrypcja Jak wybierasz model do zadania (Opus / Sonnet / Haiku / GPT-5 / Gemini)?

Maksymalna odpowiedź: “Miksuję modele w obrębie sesji — subagenty na Haiku/Sonnet, planowanie na Opus, fallback na innych vendorów.”

W 2026 rynek modeli frontier porusza się zbyt szybko, by przyspawać workflow do jednego modelu — Anthropic, OpenAI i Google wypuszczają nowy flagowiec mniej więcej co kwartał, a lider price/quality rotuje z każdym wydaniem. Tier cheap-fast (Haiku 4.5 za $1/$5 za milion tokenów) jest już na tyle silny, że napędza subagenty, codemody i hurtową edycję plików za ułamek kosztu Opusa, podczas gdy Opus 4.7 ($5/$25) wciąż wygrywa w planowaniu long-chain i refaktorach cross-file, które wymagają 50+ wywołań narzędzi spójnego rozumowania. Inteligentny routing między tymi tierami — i między vendorami, gdy jeden ma awarię lub jest gorszy w konkretnym zadaniu — to dziś top-3 dźwignia kosztu i jakości jednocześnie. Wybierz jeden model i tylko jego — zapłacisz 3–5× więcej niż trzeba i tracisz w te 6–12 godzin kwartalnie, gdy Twój domyślny provider ma incident. Miksuj świadomie — i ta sama sesja może odpalić 4 tanie równoległe agenty na Haiku, głęboki przegląd architektury na Opusie, a po cichu fallback na GPT-5.4 lub Gemini 3.1 Pro, gdy coś pęknie.

Pełne punkty za Q3 dostajesz tylko wtedy, gdy wszystkie cztery poniższe są prawdziwe w obrębie jednego dnia pracy:

  • Planowanie chodzi na Opus 4.7. Gdy wchodzisz w Plan mode dla nietrywialnej zmiany, modelem planistą jest claude-opus-4-7, nie Sonnet. Decyzje architektoniczne, refaktory multi-file, debugowanie przez cały stack — to są wywołania, gdzie 3× wyższa cena inputu zwraca się wielokrotnie.
  • Egzekucja domyślnie na Sonnet 4.6. Twój normalny coding loop — czytaj pliki, edytuj, odpal testy, popraw — chodzi na claude-sonnet-4-6. To sweet spot: 79.6% na SWE-bench Verified za $3/$15, czyli ~97–99% jakości Opusa na zadaniach kodu przy ~40% niższym koszcie i ~17% szybszym output.
  • Subagenty i bulk work na Haiku 4.5. Fan-out subagentów (code-explorer, code-reviewer, doc-writer), codemody, duże refaktory z mechanicznymi edycjami, triage logów, klasyfikacja i każdy loop “przeskanuj N plików i zaraportuj” chodzi na claude-haiku-4-5-20251001. Za $1/$5 odpalasz 5 równoległych agentów Haiku za mniej niż jedno przejście Opusem.
  • Masz skonfigurowany fallback cross-vendor. GPT-5.4, Gemini 3.1 Pro lub oba są podpięte przez OpenRouter, flagę external-provider w Claude Code, model picker Cursora lub router typu AI.cc — i faktycznie użyłeś ich przynajmniej raz w tym miesiącu, gdy Anthropic był degraded albo gdy zadanie grało pod ich mocne strony (duży multimodal context, agentic browser execution).

Cokolwiek mniej — “zawsze używam Opusa” albo “tylko Sonnet” albo “wciąż mam zamiar postawić fallback” — to mid-tier na Q3.

Linia 4.x Anthropica trzyma ten sam trójwarstwowy układ, ale różnica między tierami dramatycznie się skurczyła — i to właśnie czyni routing wartościowym.

  • Opus 4.7 (claude-opus-4-7) za $5 input / $25 output za milion tokenów. Najlepsze raw reasoning, najlepsze planowanie long-horizon, najlepszy w refaktorach multi-file, które muszą trzymać 30+ plików w kontekście. Uwaga: Opus 4.7 ma nowy tokenizer, który może wygenerować do 35% więcej tokenów dla tego samego inputu, więc realny spend per request rośnie, mimo że rate card nie zmienił się od 4.6.
  • Sonnet 4.6 (claude-sonnet-4-6) za $3 input / $15 output. Domyślny daily driver. Robi 79.6% na SWE-bench Verified — kilka punktów od Opusa na większości zadań kodu, przy ~40% niższym koszcie i ~17% szybszym czasie. Jeśli w 2026 nauczysz się tylko jednej nazwy modelu, to właśnie tej.
  • Haiku 4.5 (claude-haiku-4-5-20251001) za $1 input / $5 output. Szybki, tani, zaskakująco zdolny. Mocny w klasyfikacji, summarization, dobrze opisanych edycjach i hurtowej pracy równoległej. Bezdyskusyjnie właściwy wybór do subagentów i codemodów.

Wszystkie trzy mają pełne 1M-tokenowe okno kontekstu w cenie z rate carda — bez dopłaty za long-context. To zmienia matematykę routingu: możesz teraz oddać Haiku całe repo na triage pass, zanim zdecydujesz czy Opus w ogóle musi cokolwiek zobaczyć.

W 2026 dominuje wzorzec “three-model frontier stack”: Claude Opus 4.7 do rygorystycznego long-running reasoning, GPT-5.4 do agentic execution i tool-heavy professional knowledge work, Gemini 3.1 Pro do multimodal synthesis i analizy w ogromnym kontekście. Każdy wygrywa na innych zadaniach, a ceny spadły 40–80% rok do roku — czyli prowadzenie 2–3 vendorów to dziś w pełni mieści się w budżecie poważnego solo developera.

  • GPT-5.4 / GPT-5.5 — najmocniejszy w długich pętlach agentic, łańcuchach tool-use i strukturyzowanych outputach. Często lepszy wybór, gdy model ma sterować przeglądarką lub walić w API przez godzinę bez utraty wątku.
  • Gemini 3.1 Pro / 2.5 Pro — najmocniejszy w multimodal (image + code + PDF), ogromnych oknach kontekstu i zadaniach w ekosystemie Google. Wyciągaj go do zadań, gdzie trzeba podać modelowi screenshot z Figmy plus 200k tokenów kodu.
  • OpenRouter / AI.cc — jedna powierzchnia API, która abstrahuje providera. Przełączanie między GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro, DeepSeek V4, Llama 4, Qwen 3.6-Plus to tylko parametr model, a te routery automatycznie zrobią fallback, gdy primary padnie.

Nie “zawsze”, ale świadomie:

  • Anthropic jest degraded. Status page na czerwono, sesje timeoutują, tool calls failują — flip na GPT-5.4 przez Cursora lub alias w OpenRouter i shipuj dalej.
  • Zadanie gra pod mocną stronę non-Anthropic. Pixel-perfect Figma-to-code ze screenshota? Gemini. Długi autonomous browser agent, który musi pozostać spójny przez 200 kroków? GPT-5.4 z jego tuningiem agent-mode.
  • Chcesz second opinion. Dla decyzji architektonicznych high-stakes zapytanie o ten sam plan na Opusa i GPT-5.4, a potem zrobienie diffa odpowiedzi to tania forma redundancji.
  • Jesteś price-sensitive na konkretnym loopie. DeepSeek V4 i Qwen 3.6-Plus podcinają nawet Haiku na niektórych zadaniach; jeśli masz high-volume low-judgment loop (np. tłumaczenie commit messages), routing na jeden z nich przez OpenRouter ścina rachunek o połowę raz jeszcze.
  1. Wybierz trzy tiery i przypisz je. Spisz to — dosłownie, w MODELS.md w swoich dotfiles — który model robi planowanie, egzekucję i bulk/parallel work. Domyślny punkt startowy: Opus 4.7 do planowania, Sonnet 4.6 do egzekucji, Haiku 4.5 do subagentów.

  2. Ustaw Sonnet 4.6 jako default w każdym narzędziu. Claude Code: claude --model claude-sonnet-4-6 albo wpis w ~/.claude/settings.json. Cursor: model picker → Sonnet 4.6. Codex CLI: model = "claude-sonnet-4-6" w ~/.codex/config.toml (lub odpowiednik u Twojego providera). To jest model, na którym będziesz siedział w ~80% czasu.

  3. Podłącz Opusa pod Plan mode. W Claude Code użyj slash command /model, by przełączyć na Opusa przed wejściem w Plan mode dla czegokolwiek nietrywialnego (cokolwiek dotykającego >3 plików, nowa architektura, debug cross-services). Wychodząc z Plan mode i zaczynając egzekucję — wracaj na Sonnet.

  4. Zepchnij subagenty na Haiku. Zdefiniuj swoje subagenty (code-reviewer, code-explorer, doc-writer, refactor-bot) z model: claude-haiku-4-5-20251001 we frontmatterze. Orchestrator zostaje na Sonnet; fan-out chodzi na Haiku. Typowo zaoszczędzisz 60–80% kosztu per zadanie bez straty jakości.

  5. Skonfiguruj przynajmniej jeden fallback cross-vendor. Dwie proste drogi: (a) załóż konto na OpenRouter, ustaw OPENROUTER_API_KEY i dodaj openrouter/openai/gpt-5.4 oraz openrouter/google/gemini-3.1-pro jako alternaty w configu; (b) w Cursorze po prostu włącz providerów OpenAI i Google w model pickerze. Tak czy siak — użyj ich raz w tym tygodniu, by powstała pamięć mięśniowa.

  6. Ustaw twardy budżet per model. W swoim cost dashboardzie (Anthropic Console, OpenRouter, AI.cc) ustaw alerty per model: Opus na $X/dzień, Sonnet na $Y/dzień, Haiku na $Z/dzień. Gdy alerty Opusa się odpalają, to zwykle znak, że używasz go do egzekucji, gdzie wystarczyłby Sonnet.

  7. Przeglądaj mix raz w tygodniu. Otwieraj dashboard spendu w każdy piątek. Jeśli Opus to >25% Twojego spendu, prawdopodobnie używasz go za dużo na egzekucję. Jeśli Haiku to <10%, prawdopodobnie za mało fan-outujesz subagenty.

  8. Reroutuj, gdy leaderboard się zmieni. Mniej więcej raz na kwartał nowy release modelu przemiesza ranking best-for-task. Sprawdź ponownie leaderboardy SWE-bench Verified i Terminal-Bench Hard i zaktualizuj swoje przypisania tierów. Cała pointa tego setupu jest taka, że re-routing to zmiana configu w jednej linii, a nie migracja.

  • Default na Opusa do wszystkiego “bo on jest mądry”. Spalisz swój plan Anthropica w kilka dni. Opus jest do planowania i ciężkiego debugu — nie do loopa, który poprawia literówkę i odpala testy.
  • Default na Sonnet także do planowania. Sonnet 4.6 jest szokująco blisko Opusa na egzekucji, ale luka otwiera się ponownie na planowaniu long-horizon i rozumowaniu architektonicznym. Zapłać 3× za plan; odzyskaj to z powrotem na egzekucji.
  • Subagenty na tym samym modelu, co orchestrator. Jeśli Twój code-reviewer subagent chodzi na Sonnet, płacisz 3× za review przy ~zerowym zysku jakości względem Haiku 4.5, który już jest w klasie Sonnet 4 dla pracy review/triage.
  • Brak skonfigurowanego fallbacku. Gdy Anthropic ma 4-godzinny incident — a będzie miał, każdy vendor ma — tracisz pół dnia. Alias gpt-5.4 w configu to darmowe ubezpieczenie.
  • Ignorowanie zmiany tokenizera w Opus 4.7. Te same prompty mogą teraz kosztować 25–35% więcej na Opus 4.7 vs 4.6 z powodu tego, jak nowy tokenizer dzieli kod. Patrz na rachunek, nie tylko na opublikowany rate card.
  • Potrafisz z pamięci wymienić, który model Claude robi planowanie, egzekucję i subagenty w Twoim setupie — i nie są to wszystkie te same.
  • Twój tool config (~/.claude/settings.json, ustawienia Cursora albo Codex config.toml) ma jawne wpisy modeli — nie tylko defaulty.
  • Przynajmniej jeden subagent w projekcie chodzi na claude-haiku-4-5-20251001.
  • Przynajmniej jeden non-Anthropic provider (OpenAI, Google lub OpenRouter) jest podpięty, a Ty użyłeś go przynajmniej raz w tym miesiącu.
  • Sprawdziłeś swój spend per model z ostatnich 7 dni i dystrybucja mniej więcej pasuje do wzorca: Sonnet większość, Haiku ~20–30%, Opus ~10–20%.
  • Masz spisaną regułę (w CLAUDE.md, dotfiles albo team handbooku), kiedy przełączyć z Sonnet na Opus i kiedy fan-outować na Haiku.
  • Możesz przełączyć domyślny model jedną zmianą w configu, a nie wielogodzinną migracją — warstwa routingu jest pod Twoją kontrolą, a nie wspawana w prompty.