#monitoring

8 článkov

Prometheus remote_write backpressure: keď monitoring zaplní disk a ešte aj stratí dáta

Runbook pre výpadky remote_write: ako zmerať lag, odhadnúť time-to-disk-full, bezpečne ladiť queue_config a vedome zvoliť trade-off medzi prežitím a stratou.

24. decembra 2025

Cardinality Contracts: sprav z Prometheus labelov API s budgetom

Definuj budgety na cardinality, over ich v CI a pridaj runtime firewall, aby si zastavil explozie labelov pred produkciou.

21. decembra 2025

Dash Contracts v Go: CI kompilator pre Grafana dashboardy a Prometheus alerty

Vytiahni PromQL z dashboardov a rules suborov, over selektory proti /metrics a zastav CI este pred deployom.

15. decembra 2025

Kubernetes TLS Certifikát Rotácia: Výpadok o 3:00 Ráno

Certifikát expiroval o 3:00, služba padla. cert-manager renewal ticho zlyhal. Ukážem monitoring, testovanie rotácie a prevenciu cert-related výpadkov.

9. decembra 2025

Prometheus Kardinalita Explózia: Detekcia, Prevencia a Obnova

Jeden developer pridal user_id label. Prometheus dostal OOM. Ukážem ako detekovať high-cardinality metriky skôr než zabiajú monitoring, s relabel configami na ich drop.

23. júla 2025

Tail-based sampling v OpenTelemetry: Sizing, pamäťové pády a cost model

Praktický sizing guide pre tail sampling v OpenTelemetry Collector. Od decision_wait cez memory limity až po cost-benefit analýzu.

21. júna 2025

PostgreSQL Replication Slot Bloat: Ako Jeden Neaktívny Slot Naplnil 500GB Disk

Disk je na 95%, WAL adresár má 400GB. Ukážem ako replication slots bránia WAL cleanup a playbook pre prevenciu a recovery.

8. júna 2025

PostgreSQL Idle in Transaction: Núdzový Playbook pre Zaseknuté Spojenia

Autovacuum nemôže bežať, table bloat rastie, všetko kvôli jednému 'idle in transaction' spojeniu. Tu je detekcia a kill playbook.

20. mája 2025