Efektywny przegląd i zatwierdzanie pracy agenta
Masz pięć wątków Codex, które właśnie się zakończyły. Każdy wyprodukował wieloplikowy diff. Przeglądanie każdej linijki każdego diff-a niweluje sens delegowania — szybciej byłoby napisać kod samemu. Ale ślepe scalanie wyników agenta jest nieodpowiedzialne. Złoty środek to ustrukturyzowany przepływ pracy przeglądu, który szybko wychwytuje realne problemy, jednocześnie ufając agentowi w kwestii rutynowej poprawności.
Czego się nauczysz
Dział zatytułowany „Czego się nauczysz”- Wielopoziomowy framework przeglądu, który dostosowuje głębokość na podstawie poziomu ryzyka
- Wbudowany przepływ pracy
/reviewdo lokalnego przeglądu kodu przed commitowaniem - Techniki komentarzy inline w panelu diff-ów aplikacji Codex
- Strategie trybów zatwierdzania, które balansują bezpieczeństwo z szybkością
Trzypoziomowy framework przeglądu
Dział zatytułowany „Trzypoziomowy framework przeglądu”Poziom 1: Zaufaj i zweryfikuj (niskie ryzyko)
Dział zatytułowany „Poziom 1: Zaufaj i zweryfikuj (niskie ryzyko)”Dla zadań, w których agent uruchomił testy i przeszły pomyślnie:
- Przeskanuj podsumowanie diff-a (zmienione pliki, dodane/usunięte linie)
- Sprawdź, czy zestaw testów przeszedł
- Pobieżnie sprawdź jedną lub dwie reprezentatywne zmiany
- Scal
Przykłady: Aktualizacje dokumentacji, dodawanie testów, poprawki lintingu, proste refaktoryzacje.
Poziom 2: Zbadaj i iteruj (średnie ryzyko)
Dział zatytułowany „Poziom 2: Zbadaj i iteruj (średnie ryzyko)”Dla zadań obejmujących logikę biznesową lub zmiany API:
- Przeczytaj pełny diff plik po pliku
- Sprawdź obsługę błędów i przypadki brzegowe
- Zweryfikuj, czy test pokrywa nowe zachowanie
- Użyj komentarzy inline w panelu diff-ów aplikacji, aby poprosić o zmiany
- Pozwól Codex odnieść się do komentarzy w kolejnej turze
Przykłady: Nowe endpointy, zmiany schematu bazy danych, logika uwierzytelniania.
Poziom 3: Głęboki przegląd (wysokie ryzyko)
Dział zatytułowany „Poziom 3: Głęboki przegląd (wysokie ryzyko)”Dla zadań dotyczących bezpieczeństwa, płatności lub migracji danych:
- Przeczytaj diff i otaczający kontekst
- Ręcznie przetestuj zmiany w lokalnym środowisku
- Uruchom narzędzia skanowania bezpieczeństwa
- Przegląd w parze z innym człowiekiem
- Rozważ użycie funkcji code review Codex jako niezależnej drugiej opinii
Przykłady: Przetwarzanie płatności, obsługa danych użytkownika, middleware bezpieczeństwa, migracje bazy danych.
Używanie /review w CLI
Dział zatytułowany „Używanie /review w CLI”Polecenie /review uruchamia dedykowanego recenzenta, który czyta diff-y i raportuje priorytetyzowane ustalenia bez dotykania twojego drzewa roboczego:
- Wpisz
/revieww CLI - Wybierz tryb przeglądu:
- Przegląd względem brancha bazowego: Znajduje bazę scalania i diff-uje twoją pracę
- Przegląd niezacommitowanych zmian: Sprawdza pliki staged, unstaged i untracked
- Przegląd commita: Wybiera konkretne SHA
- Własne instrukcje przeglądu: Twój własny prompt (np. “Focus on accessibility regressions”)
- Przeczytaj ustalenia, które są priorytetyzowane według ważności
- Napraw problemy i ponownie uruchom
/review, aby zweryfikować poprawki
Komentarze inline w panelu diff-ów aplikacji
Dział zatytułowany „Komentarze inline w panelu diff-ów aplikacji”Panel diff-ów aplikacji Codex obsługuje komentarze inline. Gdy widzisz coś, co wymaga uwagi:
- Kliknij numer linii w widoku diff-a
- Dodaj swój komentarz (np. “This needs null checking” lub “Use the centralized error handler instead”)
- Codex odniesie się do twoich komentarzy w następnej turze
To szybsze niż pisanie promptu uzupełniającego, ponieważ agent widzi dokładnie, o którą linię ci chodzi.
Strategie trybów zatwierdzania
Dział zatytułowany „Strategie trybów zatwierdzania”Dopasuj tryb zatwierdzania do ryzyka zadania:
| Tryb | Opis | Najlepszy do |
|---|---|---|
| Auto (domyślny) | Codex czyta, edytuje i uruchamia polecenia w przestrzeni roboczej. Pyta przed wyjściem poza zakres. | Większość prac programistycznych |
| Read-only | Codex przegląda pliki, ale nie może wprowadzać zmian ani uruchamiać poleceń, dopóki nie zatwierdzisz | Eksploracyjna analiza, zrozumienie nieznanego kodu |
| Full Access | Brak promptów o zatwierdzenie. Codex pracuje na całej maszynie, włącznie z siecią | Tylko zaufane repozytoria w izolowanych środowiskach |
Przełączaj tryby w trakcie sesji za pomocą /permissions w CLI.
Dla automatyzacji używaj approval_policy = "never" tylko gdy twój tryb sandboxa to workspace-write lub bardziej restrykcyjny. Nigdy nie łącz approval_policy = "never" z danger-full-access, chyba że maszyna jest w pełni izolowana.
Przegląd kodu Codex Cloud
Dział zatytułowany „Przegląd kodu Codex Cloud”Dla PR-ów hostowanych na GitHub, Codex może przeglądać automatycznie:
- Automatyczne przeglądy: Wyzwalane, gdy otwierasz PR do przeglądu
- Reaktywne przeglądy: Wspomnij
@Codexw komentarzu PR, aby poprosić o konkretny feedback
Skonfiguruj w Settings > Code review. Przeglądy uruchamiane są w środowiskach chmurowych i wliczają się do limitów przeglądów kodu.
Kiedy to nie działa
Dział zatytułowany „Kiedy to nie działa”- Zmęczenie przeglądem przy zbyt wielu wątkach: Grupuj swoje przeglądy. Pozwól wątkom się nagromadzić przez godzinę, a potem przejrzyj je wszystkie w jednej sesji, korzystając ze skrzynki Triage.
- Agent wciąż popełnia ten sam błąd: Prompt lub AGENTS.md nie zawiera ograniczenia. Dodaj je jawnie i uruchom ponownie.
- Komentarze inline nie są przechwytywane: Upewnij się, że komentarz jest na linii, która faktycznie została zmieniona. Komentarze na niezmienionych liniach kontekstu mogą być ignorowane.
- Fałszywe poczucie bezpieczeństwa z przechodzących testów: Testy łapią tylko to, co pokrywają. Dla przeglądów Poziomu 3 ręcznie testuj przypadki brzegowe, które testy agenta mogą nie pokrywać.
Co dalej
Dział zatytułowany „Co dalej”- Przepływy wieloagentowe — Gdy masz wiele wątków do przeglądu, równoległa dekompozycja pomaga
- Inżynieria promptów — Lepsze prompty produkują kod wymagający mniejszego przeglądu
- Przepływy zespołowe — Standaryzuj praktyki przeglądu w swoim zespole