Rozwój kierowany testami z AI

Prosisz agenta o helper do liczenia rabatów. Oddaje kod, który wygląda poprawnie, demo przechodzi, scalasz zmiany. Dwa dni później dział finansowy zgłasza, że zamówienia z wygasłymi kuponami wciąż dostają rabat — AI napisało implementację i testy razem, więc testy weryfikowały tylko zachowanie, które samo wcześniej zakodowało. Testy napisane po kodzie najczęściej dowodzą jedynie, że kod robi to, co robi kod.

Rozwój kierowany testami odwraca tę kolejność. Najpierw piszesz testy, potwierdzasz, że nie przechodzą z właściwego powodu, a potem pozwalasz AI implementować pod cel, którego nie da się oszukać. Pętla red-green-refactor to dokładnie taki ciasny, weryfikowalny cykl, w jakim agenci są dobrzy — a krok “potwierdź czerwony” jest tym, co powstrzymuje AI przed pisaniem testów, które przechodzą, niczego nie sprawdzając.

Co z tego wyniesiesz

Powtarzalną pętlę red-green-refactor, którą prowadzisz z agentem, zamiast wpisywać każdą linię
Gotowe do wklejenia prompty, które przypinają AI do jednej fazy naraz (testy, potem kod, potem refaktoryzacja)
Wariant pętli dla Cursor / Claude Code / Codex, włącznie z tym, jak pozwolić zestawowi testów działać bez nadzoru
Tryby awaryjne, które po cichu psują TDD sterowane przez AI — i jak przyłapać AI na edytowaniu testów, by wymusić zielony wynik

Przepływ pracy

Klasyczny cykl to “czerwony, zielony, refaktor”. Z agentem każda faza staje się osobną, wąską instrukcją. Dyscyplina, dzięki której to działa: nigdy nie pozwól, by ta sama tura napisała jednocześnie nieprzechodzący test i kod, który go zaspokaja.

Napisz testy (czerwony). Określ zachowanie i przypadki brzegowe oraz wyraźnie zabroń implementacji. Opisujesz kontrakt, a nie prosisz o funkcję.
Potwierdź niepowodzenie (czerwony). Niech agent uruchomi zestaw i pokaże ci niepowodzenia. To dowodzi, że testy celują w prawdziwe, niezaimplementowane zachowanie — a nie w literówkę w imporcie, która “nie przechodzi” z niewłaściwego powodu.
Implementuj do przejścia (zielony). Teraz daj jedną wąską instrukcję: spraw, by te testy przeszły, nie dotykaj plików testowych. Cel jest jednoznaczny i sprawdzalny maszynowo.
Iteruj i refaktoryzuj. Agent uruchamia zestaw, czyta niepowodzenia i poprawia, aż będzie zielono. Gdy jest zielono, poproś o przebieg refaktoryzacji — testy są teraz twoją siatką bezpieczeństwa.

Przykład z życia: reguła rabatu z prawdziwymi przypadkami brzegowymi

Zacznij od celowo małego pierwszego podejścia, żeby zobaczyć pętlę, a potem od razu przejdź do przypadku w kształcie produkcyjnym — metoda serwisowa ze ścieżkami błędów i zamockowaną zależnością, a nie czysta funkcja w izolacji.

Faza 1 — tylko testy. Przypnij model do pisania testów i niczego więcej:

Faza 2 — potwierdź czerwony. Nie pomijaj tego. Plik testowy importujący moduł, który jeszcze nie istnieje, powinien zawieść już przy rozwiązywaniu importu; test, który tu przechodzi, to test niczego nie sprawdzający.

Faza 3 — implementuj do zielonego. Dopiero teraz autoryzujesz implementację i odgradzasz testy:

To ostatnie zdanie jest kluczowe. Bez niego agent, który utknie, często “naprawi” nieprzechodzącą asercję, zamiast poprawić kod.

Faza 4 — refaktoryzacja pod zielonym. Gdy zestaw przechodzi, masz kontrakt, który pozwala bezpiecznie przebudować kod:

Prowadzenie pętli w każdym narzędziu

Fazy są wszędzie identyczne; różni się to, jak każde narzędzie uruchamia zestaw i ile pętli test-napraw-przetestuj wykona bez nadzoru.

Użyj trybu Agent i pozwól mu samodzielnie uruchamiać testy. W Settings -> Cursor Settings -> Agents -> Auto-Run ustaw Auto-Run Mode na Run in Sandbox (na macOS/Linux), aby polecenia wykonywały się automatycznie w piaskownicy bez pytania — to ścieżka pracy bez nadzoru, którą zaleca Cursor. Następnie dodaj npx vitest (lub npm test) do Command Allowlist, by runner testów uruchamiał się natychmiast nawet poza piaskownicą. Unikaj trybu Run Everything w pętli bez nadzoru: własne wskazówki dotyczące bezpieczeństwa Cursor mówią, by nigdy go nie używać, ponieważ pomija on wszystkie zabezpieczenia. Trzymaj fazy jako osobne tury czatu — punkty kontrolne Cursor pozwalają cofnąć się do “czerwonego”, jeśli przebieg zielonej fazy pójdzie nie tak. Obserwuj widok diff: jeśli edycja z fazy zielonej dotyka pliku *.test.ts, odrzuć ją.

Prowadź go z REPL albo skryptuj bezgłowo. Interaktywnie wklejaj kolejno każdy prompt fazy i pozwól Claude uruchamiać npm test. Aby pętla sama się korygowała, dodaj hook PostToolUse (matcher Edit|Write) w .claude/settings.json, który po każdej edycji ponownie uruchamia zestaw, dzięki czemu Claude od razu widzi niepowodzenia:

{
  "hooks": {
    "PostToolUse": [
      {
        "matcher": "Edit|Write",
        "hooks": [{ "type": "command", "command": "npx vitest run --reporter=dot" }]
      }
    ]
  }
}

Dla jednorazowej fazy zielonej w CI lub w skrypcie uruchom go bezgłowo:

claude -p "Implement src/services/pricing.ts so the suite passes. Run 'npx vitest run' and iterate until green. Do not edit any *.test.ts file." --allowedTools "Read,Edit,Write,Bash"

W TUI skonfiguruj jawnie sandbox workspace i interaktywną politykę zatwierdzania. Rutynowe edycje i polecenia testowe dozwolone przez sandbox mogą iterować bez monitu:

codex --sandbox workspace-write -c approval_policy=on-request \
  "Implement src/services/pricing.ts to pass tests in src/services/pricing.test.ts. Run 'npx vitest run' and iterate until green. Don't touch the test files."

on-request pyta tylko wtedy, gdy Codex chce przekroczyć granicę sandboxa; nieudany test to zwykły wynik narzędzia, a nie zdarzenie zatwierdzania. Do równoległych eksperymentów red/green — na przykład dwóch implementacji wobec tych samych zablokowanych testów — utwórz osobny git worktree dla każdego przebiegu, by zestawy się nie kolidowały.

Kiedy to się psuje

AI edytuje testy, by wymusić zielony. Najczęstsza awaria: utknąwszy na trudnym przypadku, agent po cichu rozluźnia asercję lub ją usuwa, żeby zestaw przeszedł. Zawsze kończ prompt fazy zielonej słowami “do not modify any test file” i porównaj diff plików testowych, zanim zaufasz zielonemu przebiegowi. Przechodzący zestaw, który się skurczył, to sygnał ostrzegawczy.

Testy przechodzą, zanim kod istnieje. Jeśli “potwierdź czerwony” wraca na zielono, twoje testy w rzeczywistości nie ćwiczą celu — zwykle zamockowana zależność zwraca prawdziwą wartość domyślną albo import rozwiązuje się do zaślepki. Nigdy nie pomijaj kroku potwierdzania czerwonego.

Niestabilne testy asynchroniczne “naprawiane” przez sleep. Gdy testy zależne od czasu zawodzą sporadycznie, agenci uwielbiają zamaskować to przez setTimeout/sleep. Zamiast tego promptuj o deterministyczną kontrolę: “use fake timers (vi.useFakeTimers()) and advance them explicitly; do not add real delays.”

Zestaw jest zbyt wolny, by go zapętlać. Jeśli pełny zestaw trwa minuty, faza iteracji ślimaczy się. Podczas pętli zawęź runner do pliku poddawanego testom (npx vitest run src/services/pricing.test.ts), a na końcu uruchom cały zestaw raz.

Co dalej

Rozwój kierowany zachowaniem Przenieś tę samą ideę na poziom scenariuszy: prowadź agenta ze specyfikacji Given/When/Then.

Rozwój kierowany błędami Gdy sygnałem niepowodzenia jest błąd produkcyjny, a nie test, prowadź agenta z niego.

Testy jednostkowe z AI Głębsze wzorce mockowania, fixture'ów i pokrycia, gdy pętla red-green wejdzie w nawyk.