Przejdź do głównej zawartości

Efektywny przegląd i zatwierdzanie pracy agenta

Masz pięć wątków Codex, które właśnie się zakończyły. Każdy wyprodukował wieloplikowy diff. Przeglądanie każdej linijki każdego diff-a niweluje sens delegowania — szybciej byłoby napisać kod samemu. Ale ślepe scalanie wyników agenta jest nieodpowiedzialne. Złoty środek to ustrukturyzowany przepływ pracy przeglądu, który szybko wychwytuje realne problemy, jednocześnie ufając agentowi w kwestii rutynowej poprawności.

  • Wielopoziomowy framework przeglądu, który dostosowuje głębokość na podstawie poziomu ryzyka
  • Wbudowany przepływ pracy /review do lokalnego przeglądu kodu przed commitowaniem
  • Techniki komentarzy inline w panelu diff-ów aplikacji Codex
  • Strategie trybów zatwierdzania, które balansują bezpieczeństwo z szybkością

Dla zadań, w których agent uruchomił testy i przeszły pomyślnie:

  • Przeskanuj podsumowanie diff-a (zmienione pliki, dodane/usunięte linie)
  • Sprawdź, czy zestaw testów przeszedł
  • Pobieżnie sprawdź jedną lub dwie reprezentatywne zmiany
  • Scal

Przykłady: Aktualizacje dokumentacji, dodawanie testów, poprawki lintingu, proste refaktoryzacje.

Dla zadań obejmujących logikę biznesową lub zmiany API:

  • Przeczytaj pełny diff plik po pliku
  • Sprawdź obsługę błędów i przypadki brzegowe
  • Zweryfikuj, czy test pokrywa nowe zachowanie
  • Użyj komentarzy inline w panelu diff-ów aplikacji, aby poprosić o zmiany
  • Pozwól Codex odnieść się do komentarzy w kolejnej turze

Przykłady: Nowe endpointy, zmiany schematu bazy danych, logika uwierzytelniania.

Dla zadań dotyczących bezpieczeństwa, płatności lub migracji danych:

  • Przeczytaj diff i otaczający kontekst
  • Ręcznie przetestuj zmiany w lokalnym środowisku
  • Uruchom narzędzia skanowania bezpieczeństwa
  • Przegląd w parze z innym człowiekiem
  • Rozważ użycie funkcji code review Codex jako niezależnej drugiej opinii

Przykłady: Przetwarzanie płatności, obsługa danych użytkownika, middleware bezpieczeństwa, migracje bazy danych.

Polecenie /review uruchamia dedykowanego recenzenta, który czyta diff-y i raportuje priorytetyzowane ustalenia bez dotykania twojego drzewa roboczego:

  1. Wpisz /review w CLI
  2. Wybierz tryb przeglądu:
    • Przegląd względem brancha bazowego: Znajduje bazę scalania i diff-uje twoją pracę
    • Przegląd niezacommitowanych zmian: Sprawdza pliki staged, unstaged i untracked
    • Przegląd commita: Wybiera konkretne SHA
    • Własne instrukcje przeglądu: Twój własny prompt (np. “Focus on accessibility regressions”)
  3. Przeczytaj ustalenia, które są priorytetyzowane według ważności
  4. Napraw problemy i ponownie uruchom /review, aby zweryfikować poprawki

Panel diff-ów aplikacji Codex obsługuje komentarze inline. Gdy widzisz coś, co wymaga uwagi:

  1. Kliknij numer linii w widoku diff-a
  2. Dodaj swój komentarz (np. “This needs null checking” lub “Use the centralized error handler instead”)
  3. Codex odniesie się do twoich komentarzy w następnej turze

To szybsze niż pisanie promptu uzupełniającego, ponieważ agent widzi dokładnie, o którą linię ci chodzi.

Dopasuj tryb zatwierdzania do ryzyka zadania:

TrybOpisNajlepszy do
Auto (domyślny)Codex czyta, edytuje i uruchamia polecenia w przestrzeni roboczej. Pyta przed wyjściem poza zakres.Większość prac programistycznych
Read-onlyCodex przegląda pliki, ale nie może wprowadzać zmian ani uruchamiać poleceń, dopóki nie zatwierdziszEksploracyjna analiza, zrozumienie nieznanego kodu
Full AccessBrak promptów o zatwierdzenie. Codex pracuje na całej maszynie, włącznie z sieciąTylko zaufane repozytoria w izolowanych środowiskach

Przełączaj tryby w trakcie sesji za pomocą /permissions w CLI.

Dla automatyzacji używaj approval_policy = "never" tylko gdy twój tryb sandboxa to workspace-write lub bardziej restrykcyjny. Nigdy nie łącz approval_policy = "never" z danger-full-access, chyba że maszyna jest w pełni izolowana.

Dla PR-ów hostowanych na GitHub, Codex może przeglądać automatycznie:

  • Automatyczne przeglądy: Wyzwalane, gdy otwierasz PR do przeglądu
  • Reaktywne przeglądy: Wspomnij @Codex w komentarzu PR, aby poprosić o konkretny feedback

Skonfiguruj w Settings > Code review. Przeglądy uruchamiane są w środowiskach chmurowych i wliczają się do limitów przeglądów kodu.

  • Zmęczenie przeglądem przy zbyt wielu wątkach: Grupuj swoje przeglądy. Pozwól wątkom się nagromadzić przez godzinę, a potem przejrzyj je wszystkie w jednej sesji, korzystając ze skrzynki Triage.
  • Agent wciąż popełnia ten sam błąd: Prompt lub AGENTS.md nie zawiera ograniczenia. Dodaj je jawnie i uruchom ponownie.
  • Komentarze inline nie są przechwytywane: Upewnij się, że komentarz jest na linii, która faktycznie została zmieniona. Komentarze na niezmienionych liniach kontekstu mogą być ignorowane.
  • Fałszywe poczucie bezpieczeństwa z przechodzących testów: Testy łapią tylko to, co pokrywają. Dla przeglądów Poziomu 3 ręcznie testuj przypadki brzegowe, które testy agenta mogą nie pokrywać.