#sre

4 článkov

Prometheus remote_write backpressure: keď monitoring zaplní disk a ešte aj stratí dáta

Runbook pre výpadky remote_write: ako zmerať lag, odhadnúť time-to-disk-full, bezpečne ladiť queue_config a vedome zvoliť trade-off medzi prežitím a stratou.

24. decembra 2025

PostgreSQL checkpoint špičky: prečo p99 exploduje každých N minút

Reprodukovateľný postup na diagnostiku a odstránenie checkpoint-induced latency špičiek pomocou pgbench, pg_stat_bgwriter a WAL/IO budgetu.

8. decembra 2025

Pod zaseknutý v Terminating: produkčný rozhodovací strom pre finalizery, volume a mŕtve nody

Konzervatívny runbook na bezpečné odblokovanie Terminating Podov: finalizery, CSI/volume cleanup, mŕtve nody a kedy (a ako) použiť force delete.

26. novembra 2025

Kubernetes graceful shutdown ako kontrakt: nula 502 počas rolloutov (HTTP + gRPC)

Reprodukovateľný postup ako odstrániť 502/ECONNRESET pri rolloute: readiness-driven draining, preStop, SIGTERM a merateľný drain budget.

22. novembra 2025