#observability

13 článkov

Prometheus WAL replay peklo: pomalý štart a chýbajúce alerty

Keď Prometheus štartuje desiatky minút, často je vinník WAL replay. Ako to dokázať z logov a disku, bezpečne sa zotaviť a predísť blind spotom.

5. januára 2026

Span Contracts: Trace-driven API contract testing z OpenTelemetry

Odhaľ breaking zmeny v API z OTel spanov, hashuj len JSON shape a zastav CI bez ukladania payloadov.

31. decembra 2025

Prometheus remote_write backpressure: keď monitoring zaplní disk a ešte aj stratí dáta

Runbook pre výpadky remote_write: ako zmerať lag, odhadnúť time-to-disk-full, bezpečne ladiť queue_config a vedome zvoliť trade-off medzi prežitím a stratou.

24. decembra 2025

Cardinality Contracts: sprav z Prometheus labelov API s budgetom

Definuj budgety na cardinality, over ich v CI a pridaj runtime firewall, aby si zastavil explozie labelov pred produkciou.

21. decembra 2025

Prometheus native histogramy v produkcii: rollout plán, budgety a failure módy

Prometheus native histogramy vedia odpáliť pamäť, WAL aj remote_write. Návod na postupné nasadenie, budgety a konkrétne queries na verifikáciu.

20. decembra 2025

Dash Contracts v Go: CI kompilator pre Grafana dashboardy a Prometheus alerty

Vytiahni PromQL z dashboardov a rules suborov, over selektory proti /metrics a zastav CI este pred deployom.

15. decembra 2025

PostgreSQL checkpoint špičky: prečo p99 exploduje každých N minút

Reprodukovateľný postup na diagnostiku a odstránenie checkpoint-induced latency špičiek pomocou pgbench, pg_stat_bgwriter a WAL/IO budgetu.

8. decembra 2025

OpenTelemetry Collector backpressure: dropy, memory_limiter a queue ako guardrails

OpenTelemetry Collector pri loade dropuje spany kvôli backpressure exportérov. Oprava cez memory_limiter, queue a batch tuning + verifikácia.

4. decembra 2025

RSS Contracts: Ako prestat zabijat Java pody v Kubernetes (OOMKilled) testovanim RSS ako API

Cgroup RSS budgety, CI sampling a runtime headroom ti chytia JVM memory regresie skor, nez trafia produkciu.

27. novembra 2025

Structured Logging Performance: Keď Sa Logger Stane Bottleneckom

Pri 50k logov/sec JSON serializácia žerie 30% CPU. Štandardná knižnica encoding/json je pomalá. Benchmarkujem zap vs zerolog vs slog so skutočnými číslami.

28. septembra 2025

eBPF Off-CPU Analýza: Nájdenie Latencie Ktorú Metriky Nevidia

CPU je na 20% ale latencia je 500ms. Štandardné profilery neukazujú nič. Appka čaká, nepočíta. Ukážem ako použiť eBPF na nájdenie na čo čaká.

7. septembra 2025

Prometheus Kardinalita Explózia: Detekcia, Prevencia a Obnova

Jeden developer pridal user_id label. Prometheus dostal OOM. Ukážem ako detekovať high-cardinality metriky skôr než zabiajú monitoring, s relabel configami na ich drop.

23. júla 2025

Tail-based sampling v OpenTelemetry: Sizing, pamäťové pády a cost model

Praktický sizing guide pre tail sampling v OpenTelemetry Collector. Od decision_wait cez memory limity až po cost-benefit analýzu.

21. júna 2025