Odzyskiwanie po awarii wspomagane przez AI

Odzyskiwanie po awarii to nie tylko kopie zapasowe - to zapewnienie ciągłości biznesowej, gdy dzieje się nieoczekiwane. AI przekształca DR od reaktywnego gaszenia pożarów do proaktywnego planowania odporności, automatyzując procedury odzyskiwania przy jednoczesnym uczeniu się z każdego incydentu.

Struktura ciągłości biznesowej

Trzy filary DR wspomaganego przez AI

🛡️ Zapobieganie

Proaktywne monitorowanie i ocena ryzyka, aby zapobiegać awariom zanim wystąpią.

🔄 Odzyskiwanie

Zautomatyzowane procedury odzyskiwania z inteligentnym podejmowaniem decyzji dla minimalnych przestojów.

📊 Uczenie

Analiza po incydentach w celu poprawy odporności i zapobiegania przyszłym wystąpieniom.

Definiowanie celów odzyskiwania

Strategia RTO i RPO

interface RecoveryObjectives {
  // Recovery Time Objective - Jak długo do przywrócenia usługi
  rto: {
    critical: '15 minut',      // Przetwarzanie płatności, uwierzytelnianie
    high: '1 godzina',         // Podstawowe funkcje biznesowe
    medium: '4 godziny',       // Funkcje drugorzędne
    low: '24 godziny'          // Funkcje nice-to-have
  };

  // Recovery Point Objective - Maksymalna akceptowalna utrata danych
  rpo: {
    critical: '0 sekund',       // Brak utraty danych (replikacja synchroniczna)
    high: '5 minut',           // Kopie zapasowe w czasie niemalże rzeczywistym
    medium: '1 godzina',       // Migawki co godzinę
    low: '24 godziny'          // Kopie zapasowe dzienne
  };
}

// AI pomaga klasyfikować i optymalizować
class DRPlanner {
  async analyzeService(service: ServiceConfig) {
    // AI analizuje zależności usług i użycie
    const classification = await this.aiClassify(service);

    // Generuj optymalną strategię kopii zapasowych
    return {
      tier: classification.tier,
      backupStrategy: this.getStrategy(classification),
      dependencies: await this.traceDependencies(service),
      testSchedule: this.generateTestSchedule(classification)
    };
  }
}

Inteligentne strategie kopii zapasowych

Architektura kopii zapasowych wielopoziomowych

-- Strategia kopii zapasowych generowana przez AI dla PostgreSQL
-- Archiwizacja ciągła + odzyskiwanie do punktu w czasie

-- 1. Włącz archiwizację WAL
ALTER SYSTEM SET wal_level = 'replica';
ALTER SYSTEM SET archive_mode = 'on';
ALTER SYSTEM SET archive_command = 'aws s3 cp %p s3://backup-bucket/wal/%f';

-- 2. Zautomatyzowany skrypt kopii zapasowych
CREATE OR REPLACE FUNCTION automated_backup()
RETURNS void AS $$
DECLARE
    backup_id text;
    start_time timestamp;
BEGIN
    backup_id := 'backup_' || to_char(now(), 'YYYYMMDD_HH24MISS');
    start_time := clock_timestamp();

    -- Powiadom monitoring
    PERFORM pg_notify('backup_status',
        json_build_object(
            'status', 'started',
            'backup_id', backup_id,
            'type', 'full'
        )::text
    );

    -- Wykonaj kopię zapasową
    PERFORM pg_backup_start(backup_id);

    -- AI monitoruje anomalie podczas kopii zapasowej
    IF (SELECT count(*) FROM pg_stat_activity
        WHERE state = 'active' AND query_start < now() - interval '1 hour') > 0
    THEN
        PERFORM pg_notify('backup_alert', 'Wykryto długo działające zapytania');
    END IF;

    -- Zakończ kopię zapasową
    PERFORM pg_backup_stop();

    -- Loguj metryki
    INSERT INTO backup_history (id, duration, size, status)
    VALUES (
        backup_id,
        clock_timestamp() - start_time,
        pg_database_size(current_database()),
        'completed'
    );
END;
$$ LANGUAGE plpgsql;

-- 3. Zaplanuj zautomatyzowane kopie zapasowe
SELECT cron.schedule('full-backup', '0 2 * * *', 'SELECT automated_backup()');
SELECT cron.schedule('incremental', '*/15 * * * *', 'SELECT incremental_backup()');

// Usługa kopii zapasowych aplikacji sterowana przez AI
class IntelligentBackupService {
  private readonly strategies = {
    redis: new RedisBackupStrategy(),
    filesystem: new FilesystemBackupStrategy(),
    objectStorage: new S3BackupStrategy(),
    database: new DatabaseBackupStrategy()
  };

  async performBackup(config: BackupConfig) {
    const metrics = await this.collectMetrics();

    // AI określa co wymaga kopii zapasowej
    const backupPlan = await this.generateBackupPlan(metrics);

    // Wykonaj równolegle gdzie to możliwe
    const results = await Promise.allSettled(
      backupPlan.tasks.map(task => this.executeTask(task))
    );

    // Zweryfikuj integralność kopii zapasowych
    await this.verifyBackups(results);

    // Aktualizuj gotowość odzyskiwania po awarii
    await this.updateDRStatus({
      lastBackup: new Date(),
      dataPoints: results.filter(r => r.status === 'fulfilled').length,
      estimatedRecoveryTime: this.calculateRTO(results)
    });
  }

  private async generateBackupPlan(metrics: SystemMetrics) {
    // AI analizuje stan systemu
    const analysis = await this.aiAnalyze({
      metrics,
      changeRate: await this.getDataChangeRate(),
      lastIncident: await this.getLastIncident(),
      currentLoad: metrics.systemLoad
    });

    return {
      tasks: [
        // Krytyczne: Replikacja w czasie rzeczywistym
        ...(analysis.criticalData.map(d => ({
          type: 'stream',
          source: d.source,
          destination: d.replicaDestination,
          priority: 'critical'
        }))),

        // Wysokie: Częste migawki
        ...(analysis.highPriorityData.map(d => ({
          type: 'snapshot',
          source: d.source,
          destination: d.snapshotDestination,
          frequency: '5m',
          retention: '7d'
        }))),

        // Średnie: Standardowe kopie zapasowe
        ...(analysis.standardData.map(d => ({
          type: 'backup',
          source: d.source,
          destination: d.backupDestination,
          compression: true,
          encryption: true
        })))
      ]
    };
  }
}

# Infrastruktura odzyskiwania po awarii generowana przez AI
terraform {
  backend "s3" {
    bucket = "terraform-state-dr"
    key    = "disaster-recovery/terraform.tfstate"
    region = "us-west-2"  # Inny region niż główny

    # Włącz wersjonowanie dla wycofywania stanu
    versioning = true

    # Szyfruj stan w spoczynku
    encrypt = true
  }
}

# Konfiguracja kopii zapasowych między regionami
module "cross_region_backup" {
  source = "./modules/backup"

  regions = {
    primary   = "us-east-1"
    secondary = "us-west-2"
    tertiary  = "eu-west-1"  # Dystrybucja geograficzna
  }

  backup_policies = {
    databases = {
      schedule = "cron(0 */6 * * ? *)"  # Co 6 godzin
      retention_days = 30
      cross_region_copy = true
      lifecycle_rules = {
        transition_to_glacier = 7
        expire = 90
      }
    }

    application_data = {
      continuous = true  # Replikacja w czasie rzeczywistym
      point_in_time_recovery = true
      retention_days = 7
    }
  }
}

# Konfiguracja automatycznego przełączania awaryjnego
resource "aws_route53_health_check" "primary" {
  fqdn              = var.primary_endpoint
  port              = 443
  type              = "HTTPS"
  resource_path     = "/health"
  failure_threshold = 2
  request_interval  = 10
}

resource "aws_route53_record" "failover_primary" {
  zone_id = var.hosted_zone_id
  name    = var.domain_name
  type    = "A"

  set_identifier = "primary"
  failover_routing_policy {
    type = "PRIMARY"
  }

  alias {
    name                   = var.primary_lb_dns
    zone_id                = var.primary_lb_zone_id
    evaluate_target_health = true
  }

  health_check_id = aws_route53_health_check.primary.id
}

Zautomatyzowane procedury odzyskiwania

Inteligentna reakcja na incydenty

Wykrywanie - AI monitoruje anomalie i awarie
Ocena - Automatyczna analiza wpływu i klasyfikacja
Decyzja - AI określa optymalną strategię odzyskiwania
Wykonanie - Zautomatyzowane odzyskiwanie z nadzorem ludzkim
Weryfikacja - Upewnij się, że usługi są w pełni przywrócone
Uczenie - Analiza po incydencie dla poprawy

Struktura automatyzacji odzyskiwania

// Orkiestrator odzyskiwania po awarii wspomagany przez AI
class DisasterRecoveryOrchestrator {
  private readonly strategies: Map<IncidentType, RecoveryStrategy> = new Map([
    ['database_failure', new DatabaseRecoveryStrategy()],
    ['service_outage', new ServiceRecoveryStrategy()],
    ['data_corruption', new DataRecoveryStrategy()],
    ['security_breach', new SecurityRecoveryStrategy()],
    ['regional_failure', new RegionalFailoverStrategy()]
  ]);

  async handleIncident(alert: IncidentAlert) {
    const incident = await this.classifyIncident(alert);

    // Utwórz plan odzyskiwania
    const plan = await this.createRecoveryPlan(incident);

    // Uzyskaj zgodę człowieka na krytyczne decyzje
    if (incident.severity === 'critical') {
      await this.requestApproval(plan);
    }

    // Wykonaj odzyskiwanie
    const recovery = await this.executeRecovery(plan);

    // Monitoruj i dostosuj
    await this.monitorRecovery(recovery);

    // Wygeneruj raport pośmiertny
    await this.generatePostMortem(incident, recovery);
  }

  private async createRecoveryPlan(incident: Incident): Promise<RecoveryPlan> {
    // AI analizuje incydent
    const analysis = await this.aiAnalyze({
      incident,
      systemState: await this.getSystemState(),
      availableBackups: await this.getBackupInventory(),
      dependencies: await this.getDependencyGraph()
    });

    return {
      steps: [
        // 1. Izoluj dotknięte systemy
        {
          action: 'isolate',
          targets: analysis.affectedSystems,
          priority: 1,
          automated: true
        },

        // 2. Aktywuj środowisko DR
        {
          action: 'activate_dr',
          environment: analysis.optimalDRSite,
          priority: 2,
          requiresApproval: incident.severity === 'critical'
        },

        // 3. Przywróć dane
        {
          action: 'restore',
          source: analysis.bestBackupSource,
          targetTime: analysis.optimalRecoveryPoint,
          priority: 3,
          parallel: true
        },

        // 4. Zweryfikuj integralność
        {
          action: 'verify',
          checks: analysis.integrityChecks,
          priority: 4,
          automated: true
        },

        // 5. Przełącz ruch
        {
          action: 'failover',
          method: analysis.failoverStrategy,
          priority: 5,
          canary: true  // Stopniowe przełączanie awaryjne
        }
      ],

      estimatedDuration: analysis.estimatedRTO,
      rollbackPlan: this.generateRollbackPlan(analysis),
      communicationPlan: this.generateCommsPlan(incident)
    };
  }
}

Strategie odzyskiwania baz danych

Odzyskiwanie do punktu w czasie

-- Odzyskiwanie PITR PostgreSQL wspomagane przez AI
CREATE OR REPLACE FUNCTION intelligent_pitr_recovery(
    target_time timestamp,
    recovery_reason text
) RETURNS TABLE (
    recovery_point timestamp,
    data_loss_estimate text,
    affected_transactions bigint,
    recovery_script text
) AS $$
DECLARE
    closest_backup timestamp;
    wal_available boolean;
BEGIN
    -- Znajdź optymalny punkt odzyskiwania
    SELECT MAX(backup_time) INTO closest_backup
    FROM backup_history
    WHERE backup_time <= target_time
      AND status = 'completed';

    -- Sprawdź dostępność WAL
    wal_available := verify_wal_chain(closest_backup, target_time);

    -- AI sugeruje podejście odzyskiwania
    IF NOT wal_available THEN
        -- Znajdź alternatywny punkt odzyskiwania
        SELECT MAX(backup_time) INTO closest_backup
        FROM backup_history
        WHERE backup_time <= target_time
          AND status = 'completed'
          AND verify_wal_chain(backup_time, target_time);
    END IF;

    RETURN QUERY
    SELECT
        closest_backup as recovery_point,
        age(target_time, closest_backup)::text as data_loss_estimate,
        COUNT(DISTINCT xid) as affected_transactions,
        generate_recovery_script(
            closest_backup,
            target_time,
            recovery_reason
        ) as recovery_script
    FROM pg_xact_commit_timestamp
    WHERE timestamp BETWEEN closest_backup AND target_time;
END;
$$ LANGUAGE plpgsql;

-- Wykonanie odzyskiwania z monitorowaniem
CREATE OR REPLACE FUNCTION execute_recovery(
    recovery_script text
) RETURNS void AS $$
BEGIN
    -- Powiadom systemy monitorowania
    PERFORM pg_notify('dr_event', json_build_object(
        'event', 'recovery_started',
        'timestamp', now(),
        'script', recovery_script
    )::text);

    -- Wykonaj odzyskiwanie
    EXECUTE recovery_script;

    -- Zweryfikuj odzyskiwanie
    IF NOT verify_database_integrity() THEN
        RAISE EXCEPTION 'Weryfikacja odzyskiwania nie powiodła się';
    END IF;

    -- Aktualizuj status DR
    UPDATE dr_status
    SET last_recovery = now(),
        recovery_successful = true
    WHERE active = true;
END;
$$ LANGUAGE plpgsql;

Replikacja między regionami

// Inteligentne przełączanie awaryjne między regionami
class CrossRegionFailover {
  private regions = [
    { id: 'us-east-1', priority: 1, health: 'healthy' },
    { id: 'us-west-2', priority: 2, health: 'healthy' },
    { id: 'eu-west-1', priority: 3, health: 'healthy' }
  ];

  async executeFailover(failedRegion: string) {
    // Aktualizuj stan regionu
    this.updateRegionHealth(failedRegion, 'failed');

    // Wybierz region docelowy
    const targetRegion = await this.selectTargetRegion({
      exclude: [failedRegion],
      criteria: {
        latency: await this.measureLatencies(),
        capacity: await this.checkCapacities(),
        dataFreshness: await this.checkReplicationLag()
      }
    });

    // Sprawdzenia przedlotowe
    const checks = await this.runPreFlightChecks(targetRegion);
    if (!checks.passed) {
      throw new Error(`Sprawdzenia przedlotowe nie powiodły się: ${checks.failures}`);
    }

    // Wykonaj przełączenie awaryjne
    await this.performFailover({
      from: failedRegion,
      to: targetRegion,
      steps: [
        // Zatrzymaj zapisy do uszkodzonego regionu
        { action: 'disable_writes', region: failedRegion },

        // Upewnij się, że replikacja jest aktualna
        { action: 'wait_replication', maxLag: '5s' },

        // Promuj standby
        { action: 'promote_standby', region: targetRegion },

        // Aktualizuj DNS
        { action: 'update_dns', target: targetRegion },

        // Zweryfikuj zdrowie
        { action: 'health_check', timeout: '30s' }
      ]
    });

    // Monitoruj nowy główny
    await this.monitorFailover(targetRegion);
  }
}

Testowanie odzyskiwania po awarii

Zautomatyzowane ćwiczenia DR

Planuj regularne testy - Co tydzień dla systemów krytycznych, co miesiąc dla innych
Twórz realistyczne scenariusze - AI generuje scenariusze awarii na podstawie historycznych incydentów
Wykonuj w izolacji - Testuj w środowisku DR bez wpływu na produkcję
Mierz metryki odzyskiwania - Śledź osiągnięcie RTO/RPO
Dokumentuj luki - AI identyfikuje obszary do poprawy
Aktualizuj procedury - Włącz wyciągnięte wnioski

Chaos engineering dla DR

# Eksperymenty chaos generowane przez AI do testowania DR
apiVersion: chaos-mesh.org/v1alpha1
kind: Schedule
metadata:
  name: dr-readiness-test
spec:
  schedule: "0 3 * * 6"  # Co tydzień w sobotę o 3 rano
  type: "Workflow"
  historyLimit: 5
  workflow:
    entry: "dr-test-sequence"
    templates:
      - name: "dr-test-sequence"
        templateType: Serial
        deadline: 4h
        children:
          # Test 1: Awaria bazy danych
          - name: "database-failure"
            templateType: PodChaos
            deadline: 30m
            podChaos:
              action: pod-kill
              mode: one
              selector:
                labelSelectors:
                  app: "postgresql-primary"

          # Test 2: Partycja sieciowa
          - name: "network-partition"
            templateType: NetworkChaos
            deadline: 30m
            networkChaos:
              action: partition
              mode: all
              selector:
                labelSelectors:
                  region: "us-east-1"
              direction: both

          # Test 3: Awaria regionalna
          - name: "regional-outage"
            templateType: MultiChaos
            deadline: 1h
            children:
              - podChaos:
                  action: pod-kill
                  mode: all
                  selector:
                    labelSelectors:
                      region: "us-east-1"
              - networkChaos:
                  action: loss
                  mode: all
                  selector:
                    labelSelectors:
                      region: "us-east-1"
                  loss: "100"

Walidacja odzyskiwania

// Walidacja odzyskiwania wspomagana przez AI
class RecoveryValidator {
  async validateRecovery(recovery: RecoveryExecution) {
    const validations = {
      dataIntegrity: await this.checkDataIntegrity(),
      serviceHealth: await this.checkServiceHealth(),
      performanceBaseline: await this.checkPerformance(),
      securityPosture: await this.checkSecurity()
    };

    // AI analizuje wyniki walidacji
    const analysis = await this.aiAnalyze({
      validations,
      expectedState: recovery.targetState,
      actualState: await this.captureSystemState()
    });

    if (analysis.anomalies.length > 0) {
      // AI sugeruje naprawę
      const remediation = await this.generateRemediation(
        analysis.anomalies
      );

      await this.notifyOps({
        status: 'partial_recovery',
        anomalies: analysis.anomalies,
        suggestedActions: remediation
      });
    }

    return {
      status: analysis.overallStatus,
      report: this.generateReport(validations, analysis),
      metrics: {
        actualRTO: recovery.duration,
        dataLoss: analysis.dataLossAssessment,
        serviceAvailability: analysis.availability
      }
    };
  }
}

Scenariusze awarii w świecie rzeczywistym

Scenariusz: Całkowita awaria centrum danych

// Reakcja na katastrofalną utratę centrum danych
async function handleDataCenterFailure(incident: DataCenterIncident) {
  const dr = new DisasterRecoveryOrchestrator();

  // Faza 1: Natychmiastowa reakcja (0-15 minut)
  await dr.execute({
    phase: 'immediate',
    actions: [
      // Aktywuj dowodzenie incydentem
      {
        type: 'notify',
        targets: ['oncall', 'leadership', 'stakeholders'],
        severity: 'critical'
      },

      // Przełącz krytyczne usługi
      {
        type: 'failover',
        services: ['auth', 'payments', 'core-api'],
        target: 'dr-site-1',
        method: 'dns-failover'
      },

      // Włącz tryb tylko do odczytu
      {
        type: 'degrade-gracefully',
        mode: 'read-only',
        services: ['*']
      }
    ]
  });

  // Faza 2: Przywracanie usług (15-60 minut)
  await dr.execute({
    phase: 'restoration',
    actions: [
      // Przywróć z kopii zapasowych
      {
        type: 'restore-data',
        source: 'cross-region-backups',
        target: 'dr-site-1',
        priority: ['user-data', 'transactions', 'analytics']
      },

      // Skaluj infrastrukturę DR
      {
        type: 'auto-scale',
        target: '200%',  // Obsłuż pełne obciążenie produkcyjne
        services: ['web', 'api', 'workers']
      },

      // Zweryfikuj spójność danych
      {
        type: 'consistency-check',
        method: 'ai-assisted',
        acceptableRPO: '5 minutes'
      }
    ]
  });

  // Faza 3: Pełne odzyskiwanie (1-4 godziny)
  await dr.execute({
    phase: 'full-recovery',
    actions: [
      // Przywróć pełną funkcjonalność
      {
        type: 'enable-writes',
        services: ['*'],
        validation: 'required'
      },

      // Optymalizacja wydajności
      {
        type: 'optimize',
        targets: ['cache-warming', 'connection-pools', 'cdn']
      },

      // Komunikacja z klientami
      {
        type: 'communicate',
        channels: ['status-page', 'email', 'social'],
        message: await dr.generateCustomerUpdate(incident)
      }
    ]
  });
}

Scenariusz: Atak ransomware

# Playbook odzyskiwania po ransomware generowany przez AI
#!/bin/bash

# 1. Izoluj dotknięte systemy
claude --no-interactive "Wygeneruj reguły izolacji sieciowej dla skompromitowanych segmentów"

# 2. Oceń szkody
claude "Przeanalizuj integralność kopii zapasowych i znajdź ostatnią czystą kopię przed szyfrowaniem"

# 3. Plan odzyskiwania
claude "Utwórz plan odzyskiwania priorytetyzujący:
- Krytyczne usługi biznesowe
- Dane klientów
- Systemy finansowe
- Narzędzia wewnętrzne
Włącz szacunki czasu i kolejność zależności"

# 4. Wykonaj odzyskiwanie
claude "Wykonaj odzyskiwanie z:
- Równoległym przywracaniem gdzie to możliwe
- Weryfikacją integralności na każdym kroku
- Monitorowaniem postępu i raportowaniem"

# 5. Wzmocnij obronę
claude "Przeanalizuj wektor ataku i zasugeruj ulepszenia bezpieczeństwa"

Ciągłe doskonalenie

Uczenie się po incydentach

// Generator post-mortem wspomagany przez AI
class PostMortemAnalyzer {
  async generatePostMortem(incident: Incident, recovery: Recovery) {
    const analysis = await this.comprehensiveAnalysis({
      incident,
      recovery,
      logs: await this.collectLogs(incident.timeframe),
      metrics: await this.collectMetrics(incident.timeframe),
      decisions: await this.extractDecisions(recovery)
    });

    return {
      executive_summary: analysis.summary,
      timeline: analysis.timeline,
      root_cause: analysis.rootCause,
      impact: {
        customers_affected: analysis.customerImpact,
        data_loss: analysis.dataLoss,
        revenue_impact: analysis.revenueImpact,
        reputation_impact: analysis.reputationScore
      },
      what_went_well: analysis.positives,
      what_went_wrong: analysis.negatives,
      action_items: analysis.improvements.map(imp => ({
        description: imp.description,
        owner: imp.suggestedOwner,
        priority: imp.priority,
        due_date: imp.estimatedCompletion
      })),
      prevention: {
        technical: analysis.technicalPrevention,
        process: analysis.processPrevention,
        training: analysis.trainingNeeds
      }
    };
  }
}

Podsumowanie najlepszych praktyk

🎯 Testuj regularnie

Testy tygodniowe dla systemów krytycznych, miesięczne dla wszystkich innych. Automatyzuj testowanie dla zapewnienia spójności.

📊 Monitoruj wszystko

Śledź sukces kopii zapasowych, opóźnienie replikacji i gotowość odzyskiwania w sposób ciągły.

🤖 Automatyzuj mądrze

Automatyzuj wykrywanie i początkową reakcję, ale zachowaj ludzki nadzór nad krytycznymi decyzjami.

📚 Dokumentuj wszystko

AI może pomóc utrzymać aktualne playbooki, które ewoluują wraz z infrastrukturą.

Lista kontrolna gotowości DR

## Sprawdzenia dzienne (zautomatyzowane)
- [ ] Status ukończenia kopii zapasowych
- [ ] Opóźnienie replikacji < 5 sekund
- [ ] Sprawdzenia zdrowia strony DR przechodzą
- [ ] Redundancja krytycznych usług aktywna

## Zadania tygodniowe
- [ ] Test przełączenia awaryjnego dla jednej usługi
- [ ] Przegląd raportów integralności kopii zapasowych
- [ ] Aktualizacja dokumentacji odzyskiwania
- [ ] Weryfikacja aktualności list kontaktów

## Przeglądy miesięczne
- [ ] Wykonanie pełnego ćwiczenia DR
- [ ] Pomiar RTO/RPO
- [ ] Przegląd optymalizacji kosztów
- [ ] Szkolenia i transfer wiedzy

## Planowanie kwartalne
- [ ] Aktualizacja ocen ryzyka
- [ ] Przegląd i aktualizacja strategii DR
- [ ] Ocena dostawców i narzędzi
- [ ] Planowanie budżetu i zasobów

Powiązane zasoby

Zgodność bezpieczeństwa - Planowanie odzyskiwania zorientowane na bezpieczeństwo
Testowanie wydajności - Testowanie obciążeniowe systemów DR
Monitorowanie i obserwabilność - Systemy wczesnego ostrzegania
Infrastruktura jako kod - Odtwarzalna infrastruktura