Testowanie z wstrzykiwaniem błędów i awarii

Twój serwis płatności po cichu degraduje się, gdy PostgreSQL zwalnia pod obciążeniem. Pula połączeń się zapełnia, żądania ustawiają się w kolejce, timeouty, których istnienie zakładałeś, nigdy się nie odpalają, a pierwszy sygnał, jaki dostajesz, to wściekłe tweety klientów dwadzieścia minut po tym, jak zaczął się skok opóźnień. Wszystkie testy happy-path przechodzą. Bug pojawia się tylko wtedy, gdy zależność się psuje — czyli dokładnie w warunku, którego nigdy nie testujesz.

Wstrzykiwanie błędów (zwane też wstrzykiwaniem awarii, ang. fault injection) rozwiązuje to przez celowe psucie zależności w kontrolowany sposób: spowolnij zapytanie do bazy danych, zabij poda po stronie zależności, porzucaj pakiety między dwoma serwisami albo spraw, by zewnętrzne API zwracało błędy 500 na żądanie. Inżynieria chaosu to rozszerzenie tej samej idei na poziom systemu — uruchamianie tych awarii na działającym systemie (zwykle na stagingu), aby zweryfikować, że się trzyma. Ten przewodnik pokazuje, jak używać AI do generowania eksperymentów, runbooków i kodu odporności, na konkretnym stacku, zamiast pisać YAML z pamięci.

Co z tego wyniesiesz

Powtarzalny workflow do wstrzykiwania opóźnień, awarii zależności i presji na zasoby z Cursor, Claude Code i Codex
Prawdziwe, uruchamialne artefakty: konfigurację Toxiproxy do lokalnego wstrzykiwania awarii i manifest Chaos Mesh dla Kubernetes
Prompty do skopiowania, które nazywają Twój stack i produkują eksperymenty plus runbooki uwzględniające wycofywanie, a nie generyczne porady
Test, który dowodzi, że Twoje timeouty, ponawianie prób i circuit breakery faktycznie się odpalają pod awarią
Checklistę “Gdy coś się zepsuje” dla trybów awarii samych eksperymentów chaosu

Dwie warstwy wstrzykiwania awarii

Wstrzykiwanie awarii dzieje się na dwóch warstwach i na obu przyda Ci się pomoc AI.

Wstrzykiwanie aplikacyjne / lokalne

Wstrzykuj awarie w procesie lub na lokalnym proxy (Toxiproxy, nock, klienty HTTP wstrzykujące awarie). Szybkie, deterministyczne, działa w CI. Najlepsze do udowodnienia logiki timeoutów, ponawiania prób i fallbacków pojedynczego serwisu.

Wstrzykiwanie systemowe / chaos

Wstrzykuj awarie na warstwie infrastruktury (Chaos Mesh, LitmusChaos) na działającym klastrze: zabijanie podów, opóźnienia sieciowe, partycje, presja na zasoby. Najlepsze do weryfikacji odzyskiwania, promienia wybuchu i zachowania w stanie ustalonym między serwisami.

Zacznij od warstwy aplikacyjnej, bo jest tania i deterministyczna, a potem awansuj do chaosu na poziomie systemu, gdy pojedyncze serwisy są już udowodnione jako odporne.

Workflow 1: lokalne wstrzykiwanie opóźnień zależności z Toxiproxy

Najszybszy sposób, by udowodnić, że serwis radzi sobie z wolną zależnością, to postawić przed nim sterowalne proxy. Toxiproxy siedzi między Twoją aplikacją a PostgreSQL (albo Redisem, albo dowolnym serwisem TCP) i pozwala na żądanie dodawać opóźnienia, ograniczać przepustowość albo zrywać połączenie.

Minimalna, realna konfiguracja dla serwisu Node/Express rozmawiającego z PostgreSQL:

import { Toxiproxy } from 'toxiproxy-node-client';
import { Pool } from 'pg';

const toxiproxy = new Toxiproxy('http://localhost:8474');

// App connects to PG *through* the proxy on 5433, not directly on 5432.
const pool = new Pool({ host: 'localhost', port: 5433, database: 'app' });

test('order creation fails fast when the DB is slow, instead of hanging', async () => {
  const proxy = await toxiproxy.get('postgres');
  // Inject 4s of latency on every query through the proxy.
  await proxy.addToxic({ type: 'latency', attributes: { latency: 4000 } });

  const start = Date.now();
  // statement_timeout / pool timeout should trip well before 4s.
  await expect(createOrder(pool, { sku: 'ABC', qty: 1 })).rejects.toThrow(/timeout/i);
  expect(Date.now() - start).toBeLessThan(3000);

  await proxy.removeToxic('latency'); // always clean up
});

Sednem nie jest hydraulika proxy — chodzi o to, że masz teraz deterministyczny sposób, by stwierdzić “ten kod szybko zawodzi”. Pozwól AI wygenerować macierz eksperymentów i asercje dla Twojego prawdziwego serwisu.

Otwórz testowany serwis plus jego warstwę dostępu do danych, a następnie użyj trybu Agent, aby Cursor widział Twoją prawdziwą konfigurację timeoutów i ustawienia puli.

Prompt do skopiowania — generowanie zestawu testów odporności z Toxiproxy:

@src/services/order.service.ts @src/db/pool.ts

Write a Jest resilience test suite using toxiproxy-node-client that routes
PostgreSQL traffic through a Toxiproxy proxy named "postgres" (app connects on
port 5433). Cover these scenarios, each as its own test that adds the toxic,
asserts behavior, then removes the toxic in afterEach:

1. latency toxic (4000ms): createOrder must reject with a timeout error in
   under 3s, proving statement_timeout/pool acquireTimeout fire.
2. timeout toxic (1000ms then connection cut): the pool must surface a
   connection error, not hang, and must not leak a checked-out client.
3. bandwidth toxic (rate 1KB/s) during a large read: the request must respect
   the 5s request timeout and return a 503, not a partial response.
4. reset_peer toxic: verify the retry policy retries exactly twice with
   backoff, then gives up.

Use the existing timeout values from pool.ts in the assertions - do not invent
new numbers. Follow Arrange-Act-Assert and use descriptive test names.

Claude Code potrafi wygenerować zestaw, uruchomić go na lokalnym kontenerze Toxiproxy i iterować, aż asercje przejdą — co natychmiast ujawnia brakujące timeouty.

Prompt do skopiowania — generuj, uruchom, popraw w jednym przebiegu:

claude "Read src/services/order.service.ts and src/db/pool.ts.

Generate a Jest resilience suite at test/resilience/db-faults.test.js using
toxiproxy-node-client. Route PostgreSQL through a Toxiproxy proxy 'postgres'
on port 5433. Cover latency (4s), connection reset, and bandwidth throttling,
asserting the service fails fast within its configured timeouts and never
leaks a pooled client.

Then start Toxiproxy with:
  docker run -d -p 8474:8474 -p 5433:5433 ghcr.io/shopify/toxiproxy
and create the 'postgres' proxy via the admin API on :8474 pointing at the
local Postgres on 5432.

Run: npx jest test/resilience/db-faults.test.js
If a test fails because a timeout is missing in the code, add the missing
statement_timeout / acquireTimeout to pool.ts, then re-run until green."

Siłą Codeksa jest tutaj wielopowierzchniowość: odpal zadanie w chmurze, które otworzy PR z zestawem testów odporności plus wszelkimi poprawkami timeoutów, jakie musiał wprowadzić, a potem przejrzyj diff przed scaleniem. Ten sam prompt uruchomisz z Codex CLI (codex "...") lub z rozszerzenia IDE, jeśli wolisz zostać lokalnie.

Prompt do skopiowania — zadanie chmurowe Codeksa, które dostarcza PR:

Add a fault-injection resilience suite for the order service.

1. Read src/services/order.service.ts and src/db/pool.ts to learn the current
   timeout and retry configuration.
2. Add test/resilience/db-faults.test.js using toxiproxy-node-client. Route
   Postgres through a Toxiproxy proxy 'postgres' on port 5433. Inject latency
   (4s), connection reset, and bandwidth limits; assert fail-fast within the
   existing timeouts and no leaked pool clients.
3. Add a docker-compose.test.yml service for Toxiproxy and wire it into the
   existing CI test job.
4. If any required timeout is missing in pool.ts, add it.

Open a PR titled "test: dependency fault injection for order service" with a
summary of every timeout you added or relied on.

Workflow 2: chaos na poziomie systemu z Chaos Mesh

Gdy pojedyncze serwisy już szybko zawodzą, zweryfikuj, że klaster się regeneruje. Chaos Mesh to natywna dla Kubernetes platforma chaosu, której eksperymenty to zwykłe CRD — co oznacza, że AI może je generować dokładnie, a Ty możesz je przeglądać jak każdy inny manifest. Pojedynczy NetworkChaos, który opóźnia ruch do Twojej bazy danych na dziesięć minut:

apiVersion: chaos-mesh.org/v1alpha1
kind: NetworkChaos
metadata:
  name: postgres-latency
  namespace: staging
spec:
  action: delay
  mode: all
  selector:
    namespaces:
      - staging
    labelSelectors:
      app: postgresql
  delay:
    latency: '200ms'
    jitter: '50ms'
  duration: '10m'

Zastosuj go poleceniem kubectl apply -f chaos/postgres-latency.yaml, obserwuj swoje dashboardy SLO i usuń go poleceniem kubectl delete -f (albo pozwól wygasnąć duration). Użyj AI, by rozwinąć pojedynczą awarię w etapowy eksperyment z kontrolami bezpieczeństwa.

Odwołaj się do swoich istniejących manifestów Kubernetes, aby Cursor używał Twoich prawdziwych namespace’ów, etykiet i nazw serwisów zamiast placeholderów.

Prompt do skopiowania — etapowy workflow Chaos Mesh:

@k8s/staging/

Generate a Chaos Mesh Schedule + Workflow CRD (chaos/progressive.yaml) for the
staging namespace that runs four stages in sequence, each followed by a 5-minute
recovery gap:

1. NetworkChaos delay (200ms +/- 50ms) on app=postgresql for 10m.
2. PodChaos pod-kill, mode fixed-percent value 50%, on app=payment-service
   for 5m - verify the deployment self-heals.
3. StressChaos memory stressor (4 workers, 256MB) on app=order-service for 8m.
4. NetworkChaos partition (direction both) on tier=backend for 3m.

Use the exact label selectors from the manifests I referenced. Add a top
comment documenting the steady-state SLO each stage validates (p99 latency,
error rate) and the kubectl command to abort the whole workflow.

Claude Code potrafi wygenerować manifesty i runbook, a następnie zwalidować je przez kubectl --dry-run, dzięki czemu wyłapiesz błędy schematu, zanim cokolwiek zastosujesz na klastrze.

Prompt do skopiowania — manifesty chaosu plus runbook wycofywania:

claude "Read k8s/staging/ to learn our service labels and namespaces.

Generate chaos/ manifests for Chaos Mesh covering: Postgres network delay,
payment-service pod-kill (50%), order-service memory stress, and a backend
network partition - all scoped to namespace 'staging' with explicit durations.

Then write chaos/RUNBOOK.md with: the steady-state baseline to capture before
each experiment, the SLO thresholds that should trigger an abort (p99 > 2s or
error rate > 1%), the exact 'kubectl delete' abort commands, and how to confirm
full recovery afterward.

Validate every manifest with: kubectl apply --dry-run=client -f chaos/
Fix any schema errors and re-run until all manifests validate."

Użyj zadania chmurowego Codeksa, aby wprowadzić manifesty chaosu, runbook i konfigurację CI jako jeden PR do przejrzenia. Ponieważ Codex działa w ChatGPT desktop, CLI, IDE i Cloud, możesz uruchomić zadanie ze Slacka albo z webu, a diff przejrzeć w IDE.

Prompt do skopiowania — PR Codeksa z manifestami chaosu:

Read k8s/staging/ for our service labels and namespaces.

Create a chaos/ directory containing Chaos Mesh manifests for: Postgres network
delay (200ms), payment-service pod-kill (50%), order-service memory stress, and
a backend network partition - all in the staging namespace with bounded
durations.

Add chaos/RUNBOOK.md documenting the steady-state baseline, abort SLO
thresholds, and rollback commands. Add a manual-dispatch GitHub Actions job
(.github/workflows/chaos.yml) that applies a single named experiment against
staging only and auto-deletes it after the duration.

Open a PR titled "chaos: staging fault-injection experiments + runbook".

Zweryfikuj, że wzorce odporności się odpalają

Wstrzyknięcie awarii to tylko połowa testu. Druga połowa to potwierdzenie, że Twoja logika timeoutów, ponawiania prób i circuit breakera faktycznie zadziałała. Prawdziwy test circuit breakera z mockiem wstrzykującym awarie dla zewnętrznego API:

import nock from 'nock';
import { getInventory } from '../../src/clients/inventory.client.js';

test('circuit opens after 5 consecutive failures, then serves the fallback', async () => {
  // Make the external API fail every call.
  nock('https://inventory.internal').get(/.*/).times(10).reply(500);

  // Drive enough failures to trip the breaker (threshold = 5).
  for (let i = 0; i < 5; i++) {
    await expect(getInventory('SKU-1')).rejects.toThrow();
  }

  // 6th call should short-circuit and return the cached fallback,
  // NOT hit the network again.
  const result = await getInventory('SKU-1');
  expect(result.source).toBe('fallback-cache');
  expect(nock.isDone()).toBe(false); // breaker prevented the 6th network call
});

Prompt do skopiowania — weryfikacja circuit breakera:

@src/clients/inventory.client.ts

This client wraps the inventory API with a circuit breaker (opossum). Write a
Jest test using nock that proves the breaker behaves correctly:

1. After N consecutive 500s (read N from the breaker config, do not hardcode),
   the breaker opens and the next call returns the fallback WITHOUT a network
   request - assert with nock.isDone() === false.
2. After the resetTimeout, the breaker goes half-open: one probe request is
   allowed; on success it closes, on failure it re-opens.
3. Slow responses (use nock delay > the breaker timeout) count as failures.

Assert on the breaker's emitted events ('open', 'halfOpen', 'close') rather
than on internal state.

Integracja CI/CD: ciągłe wstrzykiwanie awarii

Uruchamiaj tanie testy awarii na warstwie aplikacyjnej przy każdym PR, a cięższe eksperymenty chaosu na stagingu planuj z określoną częstotliwością. Zaplanowany workflow, który uruchamia zestaw testów odporności i może też na żądanie odpalić pojedynczy nazwany eksperyment chaosu:

name: Continuous Fault Injection

on:
  schedule:
    - cron: '0 */6 * * *' # every 6 hours
  workflow_dispatch:
    inputs:
      experiment:
        description: 'Chaos Mesh manifest to apply (staging only)'
        required: false
        default: 'postgres-latency'

jobs:
  resilience-tests:
    runs-on: ubuntu-latest
    services:
      toxiproxy:
        image: ghcr.io/shopify/toxiproxy
        ports:
          - 8474:8474
          - 5433:5433
    steps:
      - uses: actions/checkout@v5
      - uses: actions/setup-node@v4
        with:
          node-version: 22
      - run: npm ci
      - name: Run fault-injection resilience suite
        run: npx jest test/resilience/

  staging-chaos:
    if: github.event_name == 'workflow_dispatch'
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v5
      - name: Pre-flight - abort if staging is unhealthy
        run: ./scripts/preflight.sh --slo-status green --active-incidents none
      - name: Apply chaos experiment (auto-expires via spec.duration)
        run: kubectl apply -n staging -f chaos/${{ github.event.inputs.experiment }}.yaml

Gdy coś się zepsuje

Eksperymenty chaosu mają własne tryby awarii. Oto te, które najmocniej dają się we znaki zespołom.

Eksperyment się nie wycofa. PodChaos albo NetworkChaos, który straci swój kontroler, może przeżyć zamierzone okno. Zawsze ustawiaj spec.duration, aby awarie wygasały automatycznie, i trzymaj polecenie przerwania w runbooku: kubectl delete networkchaos <name> -n staging. W przypadku Toxiproxy usuwaj toksyny w afterEach, aby nieudana asercja nigdy nie zostawiła zatrutego proxy dla kolejnego testu.

Promień wybuchu wymknął się ze stagingu. Selektor etykiet, który jest zbyt szeroki (albo brakujący filtr namespaces), może objąć pody produkcyjne. Zawsze jawnie ograniczaj selector.namespaces i uruchamiaj eksperymenty z kontekstu, który nie ma poświadczeń produkcyjnych. Przeglądaj selektor każdego wygenerowanego manifestu przed zastosowaniem.

Linia bazowa stanu ustalonego się rozjechała. Jeśli porównujesz względem nieaktualnej linii bazowej, przechodzący eksperyment może ukryć prawdziwą regresję. Przechwytuj linię bazową (p99 opóźnień, error rate) tuż przed każdym uruchomieniem, a nie z dashboardu sprzed tygodnia.

Timeouty “przechodzą”, bo nic nie zostało faktycznie wstrzyknięte. Test Toxiproxy, w którym aplikacja łączy się bezpośrednio z 5432 zamiast z proxy na 5433, przejdzie, nie testując niczego. Potwierdzaj, że awaria miała obserwowalny efekt (upływ czasu, typ błędu), aby proxy działające jak no-op zawiodło głośno.

Awaria jest prawdziwa, ale asercja jest pusta. rejects.toThrow() przechodzi dla dowolnego błędu, w tym literówki. Potwierdzaj konkretny typ lub komunikat błędu, jakiego oczekujesz pod awarią, i dodaj ograniczenie na upływ czasu, aby “szybko zawiodło” było faktycznie zweryfikowane.

Niezbędne narzędzia i zasoby

Chaos Mesh Natywna dla Kubernetes platforma chaosu; eksperymenty to zwykłe CRD, łatwe do wygenerowania przez AI i do przejrzenia przez Ciebie.

LitmusChaos Framework inżynierii chaosu spod znaku CNCF z dużym hubem eksperymentów i workflowami przyjaznymi GitOps.

Toxiproxy Proxy TCP od Shopify do deterministycznego wstrzykiwania opóźnień, ograniczeń przepustowości i awarii połączeń w testach i CI.

Principles of Chaos Engineering Fundamentalna definicja stanu ustalonego, hipotezy, promienia wybuchu i minimalizowania szkód.

Twoja podróż przez wstrzykiwanie awarii

Zmapuj zależności i zdefiniuj stan ustalony. Wypisz każde zewnętrzne wywołanie (baza danych, cache, kolejka, zewnętrzne API) oraz SLO, jakie każde musi utrzymać pod obciążeniem.
Najpierw wstrzykuj na warstwie aplikacyjnej. Użyj Toxiproxy i nock, aby deterministycznie udowodnić w CI, że timeouty, ponawianie prób i fallbacki każdego serwisu się odpalają.
Awansuj do chaosu na poziomie systemu. Gdy serwisy już szybko zawodzą, uruchamiaj eksperymenty Chaos Mesh na stagingu, aby zweryfikować odzyskiwanie i promień wybuchu.
Skodyfikuj bezpieczeństwo. Ogranicz każdy eksperyment przez duration, zawężaj selektory do stagingu i trzymaj polecenia przerwania w runbooku.
Zautomatyzuj częstotliwość. Uruchamiaj tanie testy awarii przy każdym PR; planuj cięższy chaos na stagingu i blokuj go za kontrolami zdrowia przed lotem.

Co dalej

Testy integracyjne Testuj interakcje serwisów i stan bazy danych, które wstrzykiwanie awarii następnie obciąża.

Testy E2E Zweryfikuj, że ścieżki użytkownika przetrwają zdegradowane stany, które wstrzykujesz.

Testy wydajnościowe Obciążaj i benchmarkuj serwisy, aby eksperymenty chaosu działały na realistycznym ruchu.

Testy bezpieczeństwa Badaj tryby awarii pod kątem regresji bezpieczeństwa, które mogą ujawnić.