Bramy jakości kodu wspomagane przez AI

Pewien null prześlizgnął się przez przegląd, trafił na produkcję w piątek i wybudził cię o drugiej w nocy. Diff wyglądał w porządku — zatwierdziło go trzech recenzentów — ale nikt nie zauważył niezabezpieczonego response.data.user.id na ścieżce, która uruchamia się wyłącznie przy logowaniu przez SSO. Pytanie z retrospektywy jest bezlitosne, ale słuszne: „Jak czworo ludzi mogło to przeoczyć?”.

Przeoczyli to, bo przegląd przez człowieka to niewłaściwe narzędzie do wychwytywania mechanicznych defektów. Styl, dziury w typach, zapytania N+1, brakująca walidacja danych wejściowych i nieobsłużone odrzucenia — to dokładnie to, co agent AI wpięty w bramę jakości wyłapuje za każdym razem, zanim jakikolwiek człowiek otworzy PR. Ten artykuł pokazuje, jak zbudować taką bramę w Cursorze, Claude Code i Codeksie, aby recenzenci poświęcali uwagę architekturze i intencji zamiast udawać linter.

Co z tego wyniesiesz

Wspólny plik standardów (.cursor/rules, CLAUDE.md lub AGENTS.md), który każdy agent egzekwuje spójnie
Działający hook Claude Code uruchamiający Prettier, ESLint i tsc --noEmit na każdym pliku edytowanym przez agenta — z poprawnym schematem kluczowanym zdarzeniem i ścieżką pliku ze stdin
Bezgłowy krok przeglądu PR przez AI w GitHub Actions, który możesz wrzucić do dowolnego repo, dla wszystkich trzech narzędzi
Trzy gotowe prompty do przeglądu: audyt PR świadomy stacku, refaktor any na typowany interfejs oraz test obciążeniowy k6 z prawdziwymi progami
Zestaw rozwiązań na wypadek, gdy brama robi się zbyt głośna, blokuje CI na niepowiązanych plikach lub uderza w limity diffów

Jak warstwy bram jakości na siebie nachodzą

Chcesz wyłapywać defekty tak wcześnie i tak tanio, jak to możliwe. To oznacza trzy warstwy, z których każda wyłapuje to, co przepuściła poprzednia:

W trakcie programowania — agent naprawia błędy lintingu i typów w trakcie pisania, w edytorze lub w pętli hooka. Najtańsza możliwa informacja zwrotna.
Przed mergem — bezgłowy agent przegląda diff w CI i publikuje uwagi na PR, zanim spojrzy na niego człowiek.
Ciągła — narzędzie takie jak SonarQube śledzi trendy pokrycia, złożoności i duplikacji, więc regresje jakości pojawiają się jako wykres, a nie zaskoczenie.

Reszta tego artykułu buduje każdą z warstw. Warstwy 1 i 2 są tam, gdzie te trzy narzędzia się różnią, więc korzystają z <Tabs>.

Warstwa 1: Wspólne standardy egzekwowane przez agenta

Wszystkie trzy narzędzia czytają plik reguł na poziomie projektu i stosują go do wszystkiego, co generują. Format i lokalizacja pliku się różnią; treść jest niemal identyczna. Trzymaj go w kontroli wersji, aby cały zespół — i każdy agent — pracowali według tego samego standardu.

---
description: Enterprise Code Quality Standards
alwaysApply: true
---
## Style
- 2-space indentation, max line length 100
- Every exported function has a JSDoc block
- No `any` without a `// eslint-disable-next-line` and a reason

## Architecture
- Data access goes through the repository layer, never inline SQL in handlers
- Services receive dependencies via constructor injection
- All outbound HTTP calls go through the shared `httpClient` wrapper

## Performance
- Paginate any endpoint that returns a list
- No queries inside loops — batch with `IN (...)` or a join
- Memoize pure functions that run on every render

## Security
- Parameterized queries only
- Validate request bodies with the Zod schema in `schemas/`
- Never log tokens, passwords, or full request bodies

## Coding Standards

### Style
- ESLint config: `.eslintrc.json`; Prettier: `.prettierrc`
- TypeScript strict mode; no `any` without an inline justification comment
- No `console.log` in committed code — use the `logger` module

### Quality gates
- Coverage floor: 80% on changed lines
- Cyclomatic complexity limit: 10 (enforced by `eslint-plugin-complexity`)
- Every TODO references a ticket: `// TODO(PROJ-1234): ...`

### Before you finish a task
- Run `npm run lint && npm run typecheck && npm test`
- Add or update tests for new behavior
- Update the relevant doc in `docs/` if you changed a public API

## Project standards

Codex reads AGENTS.md from the repo root (and merges nested ones in
subdirectories). Same rules as the other tools — keep them in sync.

### Style
- 2-space indentation, max line length 100, Prettier-formatted
- TypeScript strict; no `any` without a justification comment
- Use `typescript-eslint` rules, not legacy formatting lint

### Quality gates
- 80% coverage on changed lines; complexity limit 10
- Parameterized queries only; validate inputs with Zod
- Run `npm run lint && npm run typecheck && npm test` before declaring done

Warstwa 1, zautomatyzowana: hook Claude Code, który naprawdę się ładuje

Najczęstszym błędem jest tutaj konfiguracja hooka, która po cichu nigdy się nie uruchamia. Claude Code zagnieżdża tablice hooków pod nazwą zdarzenia (PostToolUse, PreToolUse) wewnątrz obiektu hooks najwyższego poziomu — goła tablica hooks na najwyższym poziomie się nie załaduje. Hooki nie otrzymują też edytowanej ścieżki w zmiennej środowiskowej; czytają JSON ze stdin i wyciągają .tool_input.file_path.

Umieść logikę w skrypcie, aby konfiguracja pozostała czytelna:

{
  "hooks": {
    "PostToolUse": [
      {
        "matcher": "Edit|Write",
        "hooks": [
          {
            "type": "command",
            "command": "\"$CLAUDE_PROJECT_DIR\"/.claude/hooks/format-and-lint.sh"
          }
        ]
      }
    ]
  }
}

#!/usr/bin/env bash
set -euo pipefail

# The edited path arrives as JSON on stdin, not as an env var.
FILE_PATH=$(jq -r '.tool_input.file_path // empty')
[ -z "$FILE_PATH" ] && exit 0

npx prettier --write "$FILE_PATH"
npx eslint --fix "$FILE_PATH"

# Type-check only TS files; tsc does the type checking, not a linter.
case "$FILE_PATH" in
  *.ts|*.tsx) npx tsc --noEmit ;;
esac

$CLAUDE_PROJECT_DIR to jedna z nielicznych prawdziwych zmiennych hooków (obok $CLAUDE_ENV_FILE dla SessionStart i $CLAUDE_CODE_REMOTE). Otocz ją cudzysłowami, aby ścieżki ze spacjami przetrwały.

W Cursorze odpowiednikiem jest pętla auto-naprawy: gdy błędy ESLint trafiają do panelu Problems, agent je naprawia i uruchamia ponownie, aż będzie czysto. Codex stosuje ten sam krok eslint --fix w swoim sandboksie, gdy poprosisz go o „make lint pass” w ramach zadania.

Warstwa 1: lintery warte wpięcia

JavaScript / TypeScript

ESLint z twoją wspólną konfiguracją
Prettier do formatowania
typescript-eslint dla reguł lintingu świadomych TypeScriptu
tsc --noEmit do sprawdzania typów

Python

Ruff do szybkiego lintingu (oraz formatowania, zastępując Blacka)
mypy do sprawdzania typów
bandit do lintingu bezpieczeństwa

Java

Checkstyle dla standardów
SpotBugs do wykrywania błędów
PMD do analizy kodu

agregator golangci-lint
gofmt do formatowania
go vet oraz staticcheck

Warstwa 2: przegląd PR przez AI, zanim spojrzy człowiek

To tutaj brama zarabia na swoje utrzymanie. Konfiguracja jest naprawdę trójnarzędziowa: każde narzędzie uruchamia bezgłowego agenta na diffie PR i publikuje uwagi.

Wepnij integrację z GitHubem

Wbudowanym przeglądem PR w Cursorze jest BugBot. Włącz go z integracji GitHub w panelu, a następnie wrzuć .cursor/BUGBOT.md do katalogu głównego repo, aby sterować tym, co oznacza (zobacz wytyczne przeglądu poniżej). Po połączeniu BugBot automatycznie komentuje inline na PR.

Dodaj serwer MCP GitHuba (zdalny HTTP — nie ma wbudowanego skrótu github, a transport oraz URL są wymagane):

claude mcp add --transport http github https://api.githubcopilot.com/mcp/
# Auth via OAuth on first use, or pass a token:
#   --header "Authorization: Bearer $GITHUB_PAT"

Konkretnie do automatyzacji PR zainstaluj aplikację GitHub App, aby można było wzmiankować Claude’a na PR-ach:

/install-github-app

Użyj Codex Cloud code review: połącz repo w panelu Codex Cloud i włącz automatyczny przegląd dla pull requestów. Codex czyta AGENTS.md w poszukiwaniu twoich standardów i publikuje komentarze przeglądu. Do doraźnego przeglądu lokalnego uruchom bezgłowy krok codex exec pokazany w następnej sekcji.

Wytyczne przeglądu, które czyta agent

Zarówno .cursor/BUGBOT.md w Cursorze, jak i prompt podany Claude Code lub Codeksowi zyskują na jawnej liście kontrolnej. Skup ją na tym, co ludzie regularnie przeoczają:

# .cursor/BUGBOT.md  (or paste into the review prompt)

## Security (block on any of these)
- Hardcoded credentials, tokens, or API keys
- Unparameterized SQL or string-concatenated queries
- Unvalidated request bodies reaching the database
- Missing auth check on a protected route
- User input rendered without escaping (XSS)

## Correctness
- Unhandled promise rejections / missing `await`
- Null/undefined dereferences on optional fields
- N+1 query patterns (a query inside a `.map`/loop)

## Quality
- New code without tests
- Functions over 50 lines or complexity over 10
- Logging that includes sensitive data

Bezgłowy przegląd w CI

Wrzuć to do dowolnego repo. Uruchamia się na pull requestach i publikuje uwagi agenta. Zwróć uwagę na actions/checkout@v6 — @v3 jest wycofany i wymusza uruchamianie akcji JavaScript na nieobsługiwanym środowisku Node.

BugBot działa jako hostowana integracja GitHub, więc nie ma żadnego YAML-a CI do utrzymywania — po włączeniu przegląda PR-y automatycznie. Skorzystaj z zakładki Claude Code lub Codex, jeśli zamiast tego chcesz, aby krok przeglądu mieszkał w twoim własnym pliku workflow.

name: AI Code Review
on: [pull_request]

jobs:
  review:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v6
        with:
          fetch-depth: 0
      - name: AI review
        env:
          ANTHROPIC_API_KEY: ${{ secrets.ANTHROPIC_API_KEY }}
        run: |
          git diff origin/${{ github.base_ref }}...HEAD > diff.patch
          claude -p "Review the diff in diff.patch against .cursor/BUGBOT.md. \
            Report only real defects as 'file:line — issue — fix', \
            grouped by Security / Correctness / Quality. \
            If nothing is wrong, say 'No blocking issues.'" \
            --output-format json > review.json

name: AI Code Review
on: [pull_request]

jobs:
  review:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v6
        with:
          fetch-depth: 0
      - name: AI review
        env:
          CODEX_API_KEY: ${{ secrets.OPENAI_API_KEY }}
        run: |
          git diff origin/${{ github.base_ref }}...HEAD > diff.patch
          codex exec --sandbox read-only -c approval_policy=never \
            "Review diff.patch against AGENTS.md. Report only real \
             defects as 'file:line — issue — fix', grouped by \
             Security / Correctness / Quality."

Ten nieinteraktywny review nie może wyświetlić nowego monitu o zatwierdzenie. Używaj approval_policy=never tylko z zaufaną tożsamością CI o minimalnych uprawnieniach; read-only pozostaje egzekwowaną granicą sandboxa, a każda akcja wymagająca szerszego dostępu kończy się błędem.

Gotowy prompt do przeglądu PR świadomego stacku (wklej do agenta Cursora, claude -p lub codex exec):

You are reviewing a pull request for a Node.js + TypeScript service using
Express, Drizzle ORM (Postgres), and Zod for validation.

Review only the changed lines in this diff:
$(git diff origin/main...HEAD)

Flag, with file:line and a one-line fix for each:
1. SQL injection or any query not going through Drizzle's parameterized API
2. N+1 query patterns (a DB call inside a loop or .map)
3. Request handlers that touch req.body without a Zod parse
4. Unhandled promise rejections or missing await
5. Auth middleware missing on a route under /api/admin

Skip style nits — Prettier and ESLint already handle those.
Output "No blocking issues" if you find none.

Sprzątanie w trakcie pracy agenta

Najużyteczniejszym nawykiem w edytorze jest zabijanie any w momencie, gdy się pojawi. Pętla auto-naprawy Cursora robi to przy włączeniu, ale prompt działa we wszystkich trzech narzędziach.

Gotowy prompt do zastąpienia any prawdziwym typem:

This value is typed `any`:

  const data = response.data as any;

Infer a precise interface from how `data` is used in the surrounding
function (the property accesses, the JSON shape this endpoint returns).
Define an exported interface, replace the `any` cast with it, and update
any call sites that now type-check more strictly. Do not use `unknown`
as a cop-out unless the shape is genuinely dynamic.

Czysty wynik wygląda tak — rzutowanie staje się nazwanym, sprawdzalnym kontraktem:

interface UserResponse {
  id: string;
  status: 'active' | 'inactive';
  metadata: Record<string, unknown>;
}

const data = response.data as UserResponse;

Warstwa 3: ciągłe monitorowanie jakości

Prawdziwe monitorowanie oznacza prawdziwe narzędzia, a nie funkcję zwracającą zaszyte na sztywno liczby. SonarQube (lub SonarCloud) to standard: liczy pokrycie, złożoność cyklomatyczną i duplikację przy każdym buildzie oraz śledzi trend. Wepnij go w ten sam workflow:

# add to .github/workflows/ai-review.yml
      - name: SonarQube scan
        uses: SonarSource/sonarqube-scan-action@v6
        env:
          SONAR_TOKEN: ${{ secrets.SONAR_TOKEN }}
        with:
          args: >
            -Dsonar.qualitygate.wait=true

Flaga qualitygate.wait=true blokuje PR, jeśli brama jakości Sonara dla projektu nie przejdzie (na przykład pokrycie nowego kodu poniżej 80% albo nowy problem o krytyczności blocker). To twój punkt egzekwowania — konkretny, zmierzony i nie do podrobienia przez agenta.

Aby uzyskać odpowiedź na pytanie „co AI o tym sądzi?”, podaj agentowi wyniki Sonara, zamiast prosić go o wymyślanie metryk:

Gotowy prompt do triażu raportu Sonara:

Here is the SonarQube "new code" report for this PR (JSON below). For each
issue, tell me: is it a real risk worth fixing now, a fix-later, or a false
positive given our codebase? Group by severity and give a one-line rationale
per issue — do not just restate Sonar's message.

<paste sonar issues JSON>

Wydajność jako brama jakości

Częstą regresją na produkcji jest zapytanie lub endpoint, które działają świetnie podczas przeglądu i padają pod obciążeniem. Wpisz testy obciążeniowe w bramę za pomocą k6 — progi są prawdziwe i sprawiają, że test sam przechodzi lub nie przechodzi.

Gotowy prompt do wygenerowania testu obciążeniowego k6:

Write a k6 load test for our POST /api/checkout endpoint.

- Ramp to 200 virtual users over 2 minutes, hold for 5 minutes, ramp down
- Send a realistic JSON body: { cartId, paymentMethodId, idempotencyKey }
- Thresholds that FAIL the test:
    - http_req_duration p(95) must be < 500ms
    - http_req_failed rate must be < 0.01
- Read the base URL from the BASE_URL env var
- Tag requests so the checkout endpoint is isolated in the summary

Wygenerowany test koduje progi jako warunki bramy, więc regresja zmienia krok CI na czerwony:

import http from 'k6/http';
import { check } from 'k6';

export const options = {
  stages: [
    { duration: '2m', target: 200 },
    { duration: '5m', target: 200 },
    { duration: '2m', target: 0 },
  ],
  thresholds: {
    http_req_duration: ['p(95)<500'],
    http_req_failed: ['rate<0.01'],
  },
};

export default function () {
  const res = http.post(
    `${__ENV.BASE_URL}/api/checkout`,
    JSON.stringify({ cartId: 'c_1', paymentMethodId: 'pm_1', idempotencyKey: `${__VU}-${__ITER}` }),
    { headers: { 'Content-Type': 'application/json' }, tags: { name: 'checkout' } },
  );
  check(res, { 'status 200': (r) => r.status === 200 });
}

Niestandardowe polecenia przeglądu

Gdy powyższe prompty okażą się przydatne, zapisz je jako wielokrotnego użytku polecenia slash. Plik .claude/commands/security-audit.md staje się poleceniem /security-audit w interaktywnej sesji Claude Code (podkatalogi dodają przestrzenie nazw — .claude/commands/review/pr.md to /review:pr). Wywołaj je w REPL:

> /security-audit

przy czym plik polecenia zawiera twój prompt skupiony na OWASP. Cursor udostępnia tę samą ideę przez zapisane prompty; Codex przez workflow w AGENTS.md i niestandardowe prompty.

Gdy to się psuje

Co dalej

Testowanie wydajności — strategie testów obciążeniowych i stresowych w szczegółach
Zgodność bezpieczeństwa — przepływy pracy ukierunkowane na bezpieczeństwo
Potoki CI/CD — wpinanie tych bram w pełny potok
Doskonałość testowania — kompleksowe strategie testowania w różnych narzędziach