Przejdź do głównej zawartości

Pętla oceny i iteracji: doprowadź każdy artefakt do 10/10

Czteroetapowy pipeline działa tylko wtedy, gdy każde przekazanie jest naprawdę dobre. Słaby artefakt na etapie 1 nie zostanie uratowany przez silnego agenta na etapie 4 — zostanie wiernie przetłumaczony na słaby kod. Ta strona to bramka jakości, która działa przy każdym przekazaniu.

  • Wielokrotnego użytku prompt krytyki w roli wrogiego recenzenta, który uruchamiasz w tym samym wątku, w którym powstał artefakt.
  • Follow-up “doprowadź do 10”, który automatycznie iteruje i ponownie ocenia, dopóki nie utknie albo nie trafi na realny bloker.
  • Wagi per etap (Wierność, Spójność, Kompletność, Rzemiosło), byś oceniał każde przekazanie wedle tego, co naprawdę się tam liczy.
  • Jasne kryteria stopu, byś dostarczał, zamiast iterować w nieskończoność na lukach na poziomie smaku.

Błędy kumulują się przez pipeline. Makieta 6/10 daje prototyp 6/10, daje system projektowy 6/10, daje kod 6/10. Koszt naprawy problemu rośnie na każdym etapie:

  • Naprawa błędu typografii na etapie 1: re-prompt, 30 sekund.
  • Naprawa go na etapie 2: re-prompt, regeneracja HTML, 2 minuty.
  • Naprawa go na etapie 3: re-ekstrakcja tokenów, regeneracja systemu na 6 ekranach, 10 minut.
  • Naprawa go na etapie 4: tropienie każdego komponentu używającego błędnego tokena, refaktor, re-test, godziny.

Ocena + iteracja na bramce zapobiega downstream’owej pracy do powtórki. Sednem nie jest perfekcjonizm — sednem jest to, że model, który właśnie wyprodukował artefakt, jest jego najtańszym recenzentem.

Stosuj je na każdym etapie. Wymiary są stałe; zmieniają się tylko wagi.

Wierność

Czy artefakt odpowiada briefowi i referencjom? Na etapie 1 — czy makieta odzwierciedla referencje i brand guide? Na etapie 4 — czy kod odpowiada tokenom i komponentom z pakietu przekazania?

Spójność

Czy artefakt trzyma się wewnętrznie? Skale typografii używane konsekwentnie. Rytm odstępów. Jeden głos w tekście. Stany rozwiązywane wedle reguły, nie na czuja.

Kompletność

Czy edge case’y, stany i tekst są wypełnione? Bez ???, bez lorem ipsum, bez “Cecha 1 / Cecha 2”, każdy komponent ma każdy stan z macierzy.

Rzemiosło

Czy jest dopracowane na tyle, że obcy założyłby, że zrobił to projektant lub starszy inżynier? Odczyt na poziomie smaku.

Oceń każdy 0–10. Wynik artefaktu to minimum z czterech, nie średnia — 10/10 w trzech wymiarach i 4/10 w czwartym to artefakt 4/10. Najsłabszy wymiar to to, co odziedziczą Twoje etapy w dół.

Uruchom go w tej samej sesji, która wyprodukowała artefakt. Model, który go zbudował, ma najwięcej kontekstu do recenzji — a poproszenie go, by zagrał wrogiego recenzenta, wydobywa tryby porażki, które tryb pochwał wygładza.

Zastąp {ARTEFACT} dosłowną nazwą: “the mockup”, “index.html”, “the design system handoff bundle”, “the tokens.css and component skeletons you just produced”.

Pętla jest wszędzie taka sama; różni się to, jak każde narzędzie utrzymuje świeżo zbudowany artefakt w zasięgu, by krytyka recenzowała rzecz prawdziwą, a nie jej streszczenie.

Trzymaj plik artefaktu otwarty (np. index.html, tokens.css) i uruchom krytykę w czacie trybu agenta, by ponownie wczytał otwarty edytor. Dodaj plik @-wzmianką, jeśli agent odpływa do innego kontekstu. Użyj checkpointa przed follow-upem “doprowadź do 10”, byś mógł cofnąć złą iterację.

Klauzula “stop and tell me what you need” jest ważna. W przeciwnym razie model będzie iterował w kółko, gdy prawdziwym blokerem jest decyzja, którą musisz podjąć Ty (decyzja brandowa, kompromis produktowy, brakujące wymaganie).

Wymiary są te same; wagi nie.

EtapNajcięższe wagiDlaczego
1 — MakietaWierność, RzemiosłoMakieta ustawia sufit wizualny. Niech referencje są odzwierciedlone, a polish wysoki; kompletność wypełni etap 2.
2 — Prototyp HTMLKompletność, SpójnośćTo tu są implementowane stany. Każdy przycisk potrzebuje każdego stanu. Spójność łapie odchyły od makiety.
3 — System projektowySpójność, KompletnośćSystem jest zdefiniowany przez swoją spójność między ekranami i stanami. Oba wymiary ważą tyle samo.
4 — Kod + dokumentacjaWierność, RzemiosłoWierność wobec pakietu przekazania (bez wymyślonych tokenów). Rzemiosło w kodzie (dopasowanie do istniejących konwencji, brak martwego kodu, prawdziwe typy).

Nie iteruj w nieskończoność. Trzy powody, by dostarczyć przy mniej niż 10/10:

  1. Ograniczenie wymagające ludzkiej decyzji. Brand, prawne, kompromis produktowy lub brakujący kawałek kontekstu, który masz tylko Ty. Zatrzymaj i zdecyduj.
  2. Dwie iteracje z rzędu bez poprawy. To nie jest problem polishu, to problem architektoniczny — artefakt ma zły kształt i musisz wrócić do promptu lub wyniku poprzedniego etapu, zamiast iterować dalej na tym.
  3. Jesteś przy 9/10+, a pozostała luka to smak, nie jakość. Dostarczaj. Etapy w dół wyłapią to, co naprawdę istotne.
  • Nie ufaj samoocenie modelu bez sprawdzenia oczami. Framing wrogiego recenzenta pomaga, ale model wciąż może przegapić rzeczy, które projektant złapałby w trzy sekundy. Otwórz artefakt i spójrz na niego.
  • Nie oceniaj, zanim artefakt jest sensownie kompletny. Krytyka niedokończonej makiety to teatr — model wymienia problemy, które za chwilę i tak naprawi następna iteracja. Poczekaj na pierwszy kompletny przebieg, a potem oceń.
  • Nie uruchamiaj pętli na artefakcie etapu N+1 i nie nazywaj tego naprawą artefaktu etapu N. Jeśli prototyp ma złą typografię, naprawą jest ponowna ocena makiety, nie łatanie prototypu. Naprawiaj zawsze na najwcześniejszym etapie, gdzie problem się pojawia.
  • Nie pomijaj pętli, gdy jesteś zmęczony. To wtedy najbardziej jej potrzebujesz. Sednem jawnej bramki jest to, że nie zależy ona od Twojego osądu w momencie przekazania.

Każdy etap pipeline’u linkuje tutaj przy swoim przekazaniu. W razie wątpliwości — oceniaj. Koszt jednorazowego uruchomienia pętli to minuta. Koszt kumulujących się błędów przez cztery etapy to powtórka.

Wróć do czteroetapowego pipeline’u →