Główne narzędzie AI — przejście na terminal/agent‑first

Pytanie ze scorecard: Jakie jest Twoje główne narzędzie do pracy z kodem AI? Odpowiedź na maks (3 pkt): Claude Code / Codex CLI / Cursor Agents — terminal/agent‑first.

Dlaczego to ważne w 2026

Zmiana definiująca 2026 rok jest prosta: interfejs narzędzia decyduje o pułapie tego, co AI może dla Ciebie zrobić. Narzędzia terminal- i agent-first (Claude Code, Codex i Cursor Agents) odblokowują subagents, hooks, skills, równoległe git worktrees, serwery MCP i routing modeli. Web chat — nawet wklejony do eleganckiego edytora — ogranicza Cię do krótkich pętli kopiuj-wklej bez trwałego wykonania w repo. W niezależnym snapshocie Artificial Analysis Coding Agent Index v1.1 z 11 lipca GPT-5.6 Sol + Codex osiągnął 80, Fable 5 + Claude Code 77, Grok 4.5 + Grok Build 76, a Composer 2.5 + Cursor CLI 52. Liczby mierzą model razem z harnessem agenta, więc wspierają workflow agent-first, ale nie dowodzą uniwersalnej wyższości samych wag jednego modelu.

Jak naprawdę wygląda maksymalny wynik

Setup na maksymalną odpowiedź Q1 jest konkretny i mierzalny. Twoją główną powierzchnią jest agent świadomy repo (Claude Code, Codex lub Cursor Agents), sesje wykonują pełną pętlę czytaj → edytuj → testuj → review, a repo zawiera trwałe instrukcje takie jak CLAUDE.md lub AGENTS.md. Hooki, skills i izolacja równoległa są użyteczne, gdy uzasadnia je workload. Oceniaj setup przez ukończenie reprezentatywnych zadań, jakość review i rework zamiast niepopartych uniwersalnych mnożników throughput.

Aktualny krajobraz (zweryfikowany przez web search)

Claude Code, Codex CLI i Cursor Agents to trzy istotne opcje agent-first, a OpenCode, Aider, Gemini CLI i GitHub Copilot oferują inne powierzchnie i ekonomikę. Drugie narzędzie może dać fallback albo niezależne review, ale jest to opiniowany wybór workflow, a nie wymóg branżowy. Zacznij od jednego narzędzia głównego, zmierz reprezentatywne zadania i dodaj kolejne tylko wtedy, gdy uzasadnia je konkretna luka.

Claude Code

Agent terminal-first od Anthropic i jedna z najmocniejszych opcji nastawionych na orkiestrację. Default konta zależy od planu: Sonnet 5 na Pro, Team Standard i subskrypcyjnych miejscach Enterprise; Opus 4.8 na Max, Team Premium, Enterprise pay-as-you-go i w sesjach Anthropic API. Polityka organizacji może tę mapę nadpisać, defaulty zarządzanych chmur są inne, a Fable 5 jest dostępny przez /model fable do najbardziej wymagającej pracy. Natywne wsparcie dla subagentów w tle, hooków, skills i serwerów MCP czyni Claude Code szczególnie mocnym w orkiestracji. Aktualne zestawienie modeli: porównanie modeli.

Cursor Agents

Agent IDE-first od Cursor jest wielomodelowy: Auto routuje dynamicznie, Grok 4.5 służy szerszej długiej pracy, a mniejszy Composer 2.5 szybkim pętlom kodowania. Grok nie zastępuje Composer — Cursor mówi, że to różne klasy wag i oba pozostają dostępne. Panel Agents — a nie inline Cmd+K ani tab completion — jest powierzchnią dającą maks pkt na Q1. Mocne strony to płynny UX w edytorze i świetny review wieloplikowych diffów. Benchmarki zależą jednak zarówno od wybranego modelu, jak i harnessu Cursora, więc wybieraj według zadania i sprawdzaj na własnych evalach.

Codex CLI

Agent kodowania OpenAI działa w CLI, IDE, chmurze i desktopowym ChatGPT. GPT-5.6 osiągnął general availability 9 lipca: Sol jest modelem flagowym, Terra zrównoważonym, a Luna tańszym poziomem do pracy masowej; dostęp zależy od planu i powierzchni, nie od jednego uniwersalnego defaultu. W Artificial Analysis v1.1 Sol + Codex osiągnął 80, Terra 77, a Luna 75. Codex dobrze pasuje zespołom potrzebującym sandboxowanego wykonania lokalnego, asynchronicznej pracy w chmurze i wielopowierzchniowego workflow OpenAI.

Wdrożenie krok po kroku

Zaudytuj, skąd faktycznie pochodzi Twój kod z tego tygodnia. Otwórz historię shella (history | grep -E 'claude|codex|cursor'), historię command palette edytora oraz paski boczne ChatGPT/Claude. Zlicz uczciwie: jaki ułamek kodu, który commitnąłeś w tym tygodniu, powstał w agencie terminalowym vs. inline-completion vs. kopiuj-wklej z web chatu? Jeśli odpowiedź brzmi “głównie web chat” albo “głównie inline Copilot”, masz na Q1 1–2 pkt i reszta tego przewodnika to fix.
Wybierz primary (to, którego będziesz używać codziennie). Domyślna rekomendacja: Claude Code, jeśli Twoja praca to dużo trudnych refaktorów, wielo-plikowych zmian architektonicznych albo chcesz najgłębszego ekosystemu hooks/skills/subagents. Codex CLI, jeśli żyjesz w długich nieprzerwanych sesjach, chcesz async background PR-ów albo zespół już siedzi na OpenAI Enterprise. Cursor Agents, jeśli naprawdę nie chcesz wychodzić z edytora i praca to bardziej feature development niż grube debugowanie. Nie zastanawiaj się za długo — drugie narzędzie i tak dodasz w kroku 6.
Zainstaluj i zautoryzuj. Claude Code: uruchom natywny instalator Anthropic (curl -fsSL https://claude.ai/install.sh | bash na macOS/Linux/WSL), potem claude i przejdź auth flow. Codex CLI: npm install -g @openai/codex, potem codex (albo postępuj zgodnie z instrukcją dla platformowo specyficznej binarki). Cursor Agents: zaktualizuj Cursor, otwórz panel Agents (nie Cmd+K), a potem wybierz Auto, Grok 4.5 lub Composer 2.5 według potrzeb routingu, możliwości lub szybkości.
Stwórz minimalny plik z kontekstem. W korzeniu repo: CLAUDE.md (Claude Code), AGENTS.md (Codex CLI i Cursor Agents oba go czytają). 15–30 linii pokrywających: czym jest projekt, kluczowe komendy (build/test/lint), 2–3 konwencje, które mają znaczenie, oraz reguły “nie rób tego” (np. “nie odpalaj migracji bez pytania”). Ten jeden plik decyduje o tym, czy masz maks Q1, czy tylko zapłaciłeś za subskrypcję i nigdy jej nie skonfigurowałeś.
Odpal realną sesję, nie zabawkową. Wybierz mały, ale prawdziwy ticket (taki z 2–4 plikami zmian). Uruchom swojego primary agenta w repo, opisz zadanie w 2–3 zdaniach i daj mu pracować. Obserwuj pętlę multi-turn: czyta pliki, odpala testy, edytuje, czyta ponownie, edytuje. Nie przerywaj, żeby korygować w trakcie — jeśli pójdzie źle, daj mu się wywalić, a potem promptuj fix. Nawyk, który budujesz, to “deleguj cały task”, a nie “niańcz każdą linię”.
Dodaj drugie narzędzie w ciągu dwóch tygodni. Gdy primary zacznie być naturalny, dodaj drugie Tier 1 do pokrycia luk. Częste pary: Claude Code + Codex CLI (jakość + endurance), Claude Code + Cursor Agents (terminal do trudnej roboty, edytor do feature dev), Cursor Agents + Codex CLI (edytor + async background). Odpalaj je w osobnych katalogach git worktree, żeby nie biły się o to samo working tree.
Podepnij pierwszy hook i pierwszy skill. Dla Claude Code: dodaj Stop hook w ~/.claude/settings.json, który odpala Twój test suite, oraz stwórz jeden skill (np. code-review) w .claude/skills/. Dla Codex CLI i Cursor Agents: skonfiguruj odpowiedniki post-action commands. To moment, w którym Twój wynik Q1 przeskakuje z “używam agenta terminalowego” (2 pkt w oczach surowego scorera) na “używam go z tymi feature’ami platformy, które dają 3 pkt”.
Zabij albo zdegraduj starą powierzchnię. Zamknij karty ChatGPT/Claude web, które kiedyś były Twoim defaultem. Wyłącz inline completion w Copilocie (albo zostaw tylko do boilerplate’u). Cel: gdy sięgasz po pomoc AI, ręka idzie do agenta terminalowego, a nie do przeglądarki. Jeśli łapiesz się na otwieraniu karty web chat, to znak, że Q1 jeszcze nie skończona.

Częste pułapki

“Używam Cursor, więc jest OK.” Używanie edytora Cursor to nie to samo, co używanie Cursor Agents. Inline Cmd+K i tab-complete to wciąż przepływy jeden-turn i dają najwyżej 2 pkt. Maks wymaga panelu Agents z Composerem 2.5 (lub odpowiednikiem) jako główną powierzchnią pracy.
Traktowanie agenta jak chatbota. Ludzie dostają 1 pkt zamiast 3, bo wklejają jedno pytanie na raz, czekają na odpowiedź, wklejają następne. Cały sens narzędzi terminal/agent-first to to, że agent działa multi-turn z dostępem do plików i tool use. Jeśli wszystkie Twoje sesje to 1-wiadomość-1-odpowiedź, nie używasz narzędzia, tylko je marnujesz.
Brak pliku z kontekstem. Odpalanie Claude Code czy Codex CLI w repo bez CLAUDE.md / AGENTS.md to jak zatrudnienie seniora i odmowa powiedzenia mu, czym zajmuje się firma. Agent spala turn za turnem, odkrywając te same konwencje w każdej sesji. Ten jeden brakujący plik jest najczęstszym powodem, dla którego “agent jest tylko OK” zamiast “agent jest niesamowity”.
Wybór na podstawie benchmarków zamiast dopasowania. Wynik agenta kodowania łączy model, harness, ustawienia i narzędzia, a nawet koszyk benchmarków zmienia się w czasie. Wybieraj pod workflow, a potem waliduj na reprezentatywnych zadaniach tą samą metodologią.
Dodawanie drugiego narzędzia bez powodu. Fallback albo niezależny reviewer może być użyteczny, bo narzędzia mają różne limity i powierzchnie. Dokłada też koszt subskrypcji, polityki i szkoleń. Dodaj je, gdy własne dane z zadań pokazują korzyść.

Jak sprawdzić, czy już tam jesteś

Twoja główna edycja dzieje się w agencie CLI albo dedykowanym panelu Agents — nie w popupie inline-completion, nie w karcie przeglądarki.
Uruchamiasz świeżą sesję agenta (claude, codex albo Cursor Agents) co najmniej 5 razy w normalny dzień roboczy.
Typowa sesja wykonuje pełną pętlę czytaj → edytuj → testuj → review, z subagentami gdy są użyteczne.
Masz CLAUDE.md albo AGENTS.md w korzeniu każdego aktywnego repo.
Masz skonfigurowany co najmniej jeden hook (Stop hook odpalający testy albo PostToolUse odpalający linter) i co najmniej jeden własny skill lub slash command.
Regularnie odpalasz dwóch agentów równolegle przez git worktree albo dwa otwarte panele agentów.
Gdy sięgasz po pomoc AI, Twoja ręka idzie do panelu terminal/agents — nie do karty przeglądarki.

Dalsza lektura

Q2 · Dopasowanie planu subskrypcji Dobierz plan pod równoległych agentów i długie sesje.

Q3 · Routing modeli Miksuj Fable 5 / Opus / Sonnet / Haiku per task.

Claude Code quick start Praktyczny walkthrough setupu Claude Code.

Wypełnij Developer Scorecard Sprawdź, gdzie stoisz na wszystkich 25 pytaniach.