Przejdź do głównej zawartości

Główne narzędzie AI — przejście na terminal/agent‑first

Pytanie ze scorecard: Jakie jest Twoje główne narzędzie do pracy z kodem AI? Odpowiedź na maks (3 pkt): Claude Code / Codex CLI / Cursor Agents — terminal/agent‑first.

Zmiana, która definiuje 2026 rok, jest prosta: interfejs narzędzia decyduje o pułapie tego, co AI może dla Ciebie zrobić. Narzędzia terminal- i agent-first (Claude Code, Codex CLI, Cursor Agents w Composer 2.5) odblokowują subagents, hooks, skills, równoległe git worktrees, serwery MCP oraz wzorzec routowania modeli Tier 1/2/3, który definiuje topowy setup w 2026. Web chat — nawet wklejony do eleganckiego edytora — ogranicza Cię do produktywności jednego turn: jeden prompt na wejściu, jeden diff na wyjściu, bez kontekstu, bez równoległości, bez automatyzacji. Claude Opus 4.6 prowadzi na SWE-bench Verified z wynikiem 80,9% (najwyższym wśród modeli frontier), Codex CLI z GPT-5.5 ma ~80% i prowadzi na Terminal-Bench 2.0 z 77,3%, a Composer 2.5 w Cursor (wydany 18 maja) dorównuje Opusowi 4.7 i GPT-5.5 w benchmarkach — ale żadna z tych mocy nie dociera do Ciebie przez chat.openai.com ani prostą wtyczkę z autouzupełnianiem. Model Tier 1/2/3 — Tier 1 do taniej szerokiej roboty, Tier 2 do normalnego kodowania, Tier 3 zarezerwowany dla trudnych problemów — istnieje wyłącznie wewnątrz narzędzi agent-first, które pozwalają routować pracę między modelami i powierzchniami.

Setup na maksymalną odpowiedź Q1 jest konkretny i mierzalny. Twoja główna powierzchnia edycyjna to agent CLI (Claude Code w panelu terminala, Codex CLI w iTerm/Warp albo Cursor Agents w dedykowanym panelu agents — nie popup z inline-completion). Uruchamiasz sesje przez claude / codex / Cursor Agent co najmniej 5–10 razy w trakcie dnia roboczego, a każda sesja idzie przez wiele turn: agent czyta pliki, odpala testy, edytuje, czyta ponownie, edytuje znowu, często odpalając subagents w tle. Masz CLAUDE.md albo AGENTS.md w korzeniu repo, co najmniej jeden Stop hook, jeden lub dwa własne skills lub slash commands, i regularnie odpalasz dwóch albo trzech agentów równolegle przez git worktree. Porównaj to z niższymi poziomami: ChatGPT otwarty w karcie przeglądarki (1 pkt — kopiuj-wklej jeden turn, bez kontekstu repo, bez automatyzacji), inline completions w GitHub Copilot (2 pkt — szybkie tab-complete, ale bez wielo-plikowych refaktorów, bez subagents, bez hooks) albo Cursor inline Cmd+K bez Composer/Agents (2 pkt — lepsze niż czysty Copilot, ale wciąż jeden turn). Różnica między userem Copilot a userem Claude Code na 4-godzinnym tasku to dziś rutynowo 3–5x throughput, nie 20%, bo agent robi pętlę czytania plików, odpalania testów i iteracji, którą user Copilot wciąż klika ręcznie.

Rynek terminal/agent-first w 2026 skonsolidował się wokół trzech narzędzi Tier 1 — Claude Code, Codex CLI i Cursor Agents — z mocnymi alternatywami Tier 2 (OpenCode, Aider, Gemini CLI), które zamykają lukę cenową, ale nie merytoryczną. Większość poważnych zespołów odpala dwa narzędzia Tier 1 obok siebie: zwykle Claude Code do trudnych problemów i Codex CLI jako daily driver, albo Cursor Agents wewnątrz edytora i Claude Code w osobnym panelu terminala do długich refaktorów. Narracja “wybierz jedno” jest martwa; pytanie brzmi które dwa i jak podzielić między nie pracę.

Agent terminal-first od Anthropic, obecnie lider jakości. Domyślnie odpala Opus 4.6/4.7 (z Sonnetem do lżejszej roboty Tier 2 i Haiku do Tier 1), okno kontekstu 1M tokenów, natywne wsparcie dla subagents (/agents), hooks (PreToolUse, PostToolUse, Stop, Notification, UserPromptSubmit), skills (.claude/skills/<nazwa>/SKILL.md) oraz serwerów MCP przez .mcp.json lub claude mcp add. Cennik w 2026 to subskrypcje warstwowe — Pro, Max, Team, Enterprise — z limitami 5-godzinnymi podwojonymi 6 maja 2026, co realnie złagodziło narzekania na throttling z końca 2025. Killer feature dla maksymalnej Q1 to kombinacja subagents + hooks + skills: możesz podpiąć subagenta code-reviewer pod każdy Stop, odpalać audyt bezpieczeństwa jako skill przy każdym PR i routować Opus tylko do kroku planowania, podczas gdy Sonnet robi edycje. Żadne inne narzędzie nie dorównuje dziś tej głębokości orkiestracji.

Agent IDE-first od Cursor, obecnie zbudowany wokół Composer 2.5 (wydany 18 maja 2026). Ten sam edytor, który znasz z Cursor 2024–2025, ale to panel Agents — a nie inline Cmd+K ani tab completions — jest powierzchnią, która daje maks pkt na Q1. Composer 2.5 dorównuje Opusowi 4.7 i GPT-5.5 w wewnętrznych benchmarkach i dodaje background cloud agents działających na infrastrukturze Cursor, podczas gdy Ty edytujesz lokalnie. Mocne strony: najgładszy UX z całej trójki, najlepszy dla deweloperów, którzy nie chcą wychodzić z edytora, świetny review wielo-plikowych diffów. Słabości: ekosystem hooks i skills jest cieńszy niż w Claude Code, a panel Agents wciąż mniej ograny w bardzo długich sesjach (4h+) niż narzędzia terminal-native. Cena siedzi między Copilotem a Claude Code Max; tier Business odblokowuje quota cloud-agentów, która sprawia, że Composer 2.5 jest faktycznie równoległy.

Terminalowy agent od OpenAI, obecnie domyślnie na GPT-5.5, z modelem sandbox VM i asynchronicznym deliverowaniem PR-ów. “Daily driver, który się nie kończy” — userzy Codex CLI konsekwentnie raportują mniej przerwań przez rate-limity niż userzy Claude Code Pro na równoważnych obciążeniach, dlatego Codex wygrywa kategorię endurance w porównaniach 2026, nawet gdy przegrywa z Claude Code w benchmarkach surowej jakości kodu. Prowadzi na Terminal-Bench 2.0 z 77,3%, ma flagę --ask-for-approval (wartości: untrusted, on-failure, on-request, never) do regulowania autonomii i integruje się z szerszym multi-powierzchniowym workflow OpenAI (ChatGPT web, Codex web, Codex CLI, rozszerzenie Codex IDE — wszystkie dzielą stan sesji). Najlepiej pasuje zespołom już siedzącym na planach ChatGPT Enterprise/Team i ludziom, którzy wolą długie nieprzerwane sesje od peak quality na najtrudniejszym pojedynczym tasku.

  1. Zaudytuj, skąd faktycznie pochodzi Twój kod z tego tygodnia. Otwórz historię shella (history | grep -E 'claude|codex|cursor'), historię command palette edytora oraz paski boczne ChatGPT/Claude. Zlicz uczciwie: jaki ułamek kodu, który commitnąłeś w tym tygodniu, powstał w agencie terminalowym vs. inline-completion vs. kopiuj-wklej z web chatu? Jeśli odpowiedź brzmi “głównie web chat” albo “głównie inline Copilot”, masz na Q1 1–2 pkt i reszta tego przewodnika to fix.
  2. Wybierz primary (to, którego będziesz używać codziennie). Domyślna rekomendacja: Claude Code, jeśli Twoja praca to dużo trudnych refaktorów, wielo-plikowych zmian architektonicznych albo chcesz najgłębszego ekosystemu hooks/skills/subagents. Codex CLI, jeśli żyjesz w długich nieprzerwanych sesjach, chcesz async background PR-ów albo zespół już siedzi na OpenAI Enterprise. Cursor Agents, jeśli naprawdę nie chcesz wychodzić z edytora i praca to bardziej feature development niż grube debugowanie. Nie zastanawiaj się za długo — drugie narzędzie i tak dodasz w kroku 6.
  3. Zainstaluj i zautoryzuj. Claude Code: npm install -g @anthropic-ai/claude-code, potem claude i przejdź auth flow. Codex CLI: npm install -g @openai/codex, potem codex (albo postępuj zgodnie z instrukcją dla platformowo specyficznego binarki). Cursor Agents: zaktualizuj Cursor do 3.0+, otwórz panel Agents (nie Cmd+K) i wybierz Composer 2.5 jako model.
  4. Stwórz minimalny plik z kontekstem. W korzeniu repo: CLAUDE.md (Claude Code), AGENTS.md (Codex CLI i Cursor Agents oba go czytają). 15–30 linii pokrywających: czym jest projekt, kluczowe komendy (build/test/lint), 2–3 konwencje, które mają znaczenie, oraz reguły “nie rób tego” (np. “nie odpalaj migracji bez pytania”). Ten jeden plik decyduje o tym, czy masz maks Q1, czy tylko zapłaciłeś za subskrypcję i nigdy jej nie skonfigurowałeś.
  5. Odpal realną sesję, nie zabawkową. Wybierz mały, ale prawdziwy ticket (taki z 2–4 plikami zmian). Uruchom swojego primary agenta w repo, opisz zadanie w 2–3 zdaniach i daj mu pracować. Obserwuj pętlę multi-turn: czyta pliki, odpala testy, edytuje, czyta ponownie, edytuje. Nie przerywaj, żeby korygować w trakcie — jeśli pójdzie źle, daj mu się wywalić, a potem promptuj fix. Nawyk, który budujesz, to “deleguj cały task”, a nie “niańcz każdą linię”.
  6. Dodaj drugie narzędzie w ciągu dwóch tygodni. Gdy primary zacznie być naturalny, dodaj drugie Tier 1 do pokrycia luk. Częste pary: Claude Code + Codex CLI (jakość + endurance), Claude Code + Cursor Agents (terminal do trudnej roboty, edytor do feature dev), Cursor Agents + Codex CLI (edytor + async background). Odpalaj je w osobnych katalogach git worktree, żeby nie biły się o to samo working tree.
  7. Podepnij pierwszy hook i pierwszy skill. Dla Claude Code: dodaj Stop hook w ~/.claude/settings.json, który odpala Twój test suite, oraz stwórz jeden skill (np. code-review) w .claude/skills/. Dla Codex CLI i Cursor Agents: skonfiguruj odpowiedniki post-action commands. To moment, w którym Twój wynik Q1 przeskakuje z “używam agenta terminalowego” (2 pkt w oczach surowego scorera) na “używam go z tymi feature’ami platformy, które dają 3 pkt”.
  8. Zabij albo zdegraduj starą powierzchnię. Zamknij karty ChatGPT/Claude web, które kiedyś były Twoim defaultem. Wyłącz inline completion w Copilocie (albo zostaw tylko do boilerplate’u). Cel: gdy sięgasz po pomoc AI, ręka idzie do agenta terminalowego, a nie do przeglądarki. Jeśli łapiesz się na otwieraniu karty web chat, to znak, że Q1 jeszcze nie skończona.
  • “Używam Cursor, więc jest OK.” Używanie edytora Cursor to nie to samo, co używanie Cursor Agents. Inline Cmd+K i tab-complete to wciąż przepływy jeden-turn i dają najwyżej 2 pkt. Maks wymaga panelu Agents z Composerem 2.5 (lub odpowiednikiem) jako główną powierzchnią pracy.
  • Traktowanie agenta jak chatbota. Ludzie dostają 1 pkt zamiast 3, bo wklejają jedno pytanie na raz, czekają na odpowiedź, wklejają następne. Cały sens narzędzi terminal/agent-first to to, że agent działa multi-turn z dostępem do plików i tool use. Jeśli wszystkie Twoje sesje to 1-wiadomość-1-odpowiedź, nie używasz narzędzia, tylko je marnujesz.
  • Brak pliku z kontekstem. Odpalanie Claude Code czy Codex CLI w repo bez CLAUDE.md / AGENTS.md to jak zatrudnienie seniora i odmowa powiedzenia mu, czym zajmuje się firma. Agent spala turn za turnem, odkrywając te same konwencje w każdej sesji. Ten jeden brakujący plik jest najczęstszym powodem, dla którego “agent jest tylko OK” zamiast “agent jest niesamowity”.
  • Wybór na podstawie benchmarków zamiast dopasowania. Liczby SWE-bench Verified są prawdziwe, ale małe. Claude Code 80,9% vs Codex CLI ~80% to nie jest ta różnica, która ma znaczenie — znaczenie ma to, które narzędzie faktycznie otworzysz codziennie. Wybieraj pod dopasowanie, potem optymalizuj.
  • Odmowa odpalenia drugiego narzędzia. Instynkt “jedno narzędzie do wszystkiego” Cię kosztuje. Topowe 10% setupów w 2026 odpala dwa Tier 1, bo mają różne tryby awarii (rate limity vs. sufity jakości vs. preferencje powierzchni). Dzielenie roboty między nie jest tańsze i szybsze niż zmuszanie jednego do wszystkiego.
  • Twoja główna edycja dzieje się w agencie CLI albo dedykowanym panelu Agents — nie w popupie inline-completion, nie w karcie przeglądarki.
  • Uruchamiasz świeżą sesję agenta (claude, codex albo Cursor Agents) co najmniej 5 razy w normalny dzień roboczy.
  • Typowa sesja idzie przez 3+ turny (czytaj → edytuj → testuj → edytuj), często z subagents w tle.
  • Masz CLAUDE.md albo AGENTS.md w korzeniu każdego aktywnego repo.
  • Masz skonfigurowany co najmniej jeden hook (Stop hook odpalający testy albo PostToolUse odpalający linter) i co najmniej jeden własny skill lub slash command.
  • Regularnie odpalasz dwóch agentów równolegle przez git worktree albo dwa otwarte panele agentów.
  • Gdy sięgasz po pomoc AI, Twoja ręka idzie do panelu terminal/agents — nie do karty przeglądarki.