Observability

Prometheus Metrics

Metrics-DB für Container, GPU, App-Telemetrie

Time-Series für alle Layer.

Cloudflare Access Protected

Diese Subdomain ist via Cloudflare Access (Zero-Trust) geschuetzt. Anmeldung via Email-OTP oder SSO erforderlich. Nur Mitglieder der Gruppe plattform-admin haben Zugriff.

Beschreibung

Prometheus scraped DCGM (NVIDIA-GPU), cadvisor (Container), node-exporter (Host), App-Metrics (Langfuse, LiteLLM, OWUI).

Features & Capabilities · 4 Punkte
F01
PromQL
F02
DCGM-GPU-Metrics
F03
Recording-Rules
F04
Alertmanager
API & Endpoints
Use-Cases · 2 Beispiele

Wie das Tool real genutzt wird.

01
GPU-Auslastung pro Modell
02
Container-OOM-Alarme
Tech-Stack
Go
Compliance & Governance
NIS2 + ISO 27001 Logging-Pflicht