#debugging

52 článkov

Prometheus WAL replay peklo: pomalý štart a chýbajúce alerty

Keď Prometheus štartuje desiatky minút, často je vinník WAL replay. Ako to dokázať z logov a disku, bezpečne sa zotaviť a predísť blind spotom.

5. januára 2026

tcpdump vidí SYN, ale služba timeoutuje: pasca listen backlogu

Klienti timeoutujú, tcpdump ukazuje SYN (niekedy aj SYN-ACK), ale aplikácia nič neloguje. Častý vinník: Linux listen/accept fronty, ktoré sa pri load-e alebo CPU starvation preplnia.

3. januára 2026

PostgreSQL logical replication lag: veľké transakcie a reorder buffer spilly

Jedna obrovská transakcia vie pripnúť logical replication na hodiny. Runbook na rýchlu identifikáciu, bezpečné tunenie decodingu a kontrakt na bounded transakcie.

1. januára 2026

ingress-nginx reload búrky: prečo 502 špičky sedia s Ingress churnom

Reloady NGINX Ingressu vedia dropovať keep-alive a robiť 502 špičky pri častých zmenách. Runbook na dôkaz reloadu, zníženie churnu a hardening.

28. decembra 2025

Certifikat nie je expirnuty, vas node ano: Time Drift rozbitie TLS a JWT v Kubernetes

Sporadicke TLS handshake zlyhania a JWT zamietnutia napriec sluzbami. Vsetko prejde ked to skontrolujete. Vinik: hodiny nodu sa posunuli alebo skocili, a NTP to opravilo skor nez ste to stihli zachytit.

26. decembra 2025

EXPLAIN vám klamal: PostgreSQL Prepared Statement Plan Cliff

Váš EXPLAIN vyzerá perfektne ale produkcia horí. Vinník: PostgreSQL ticho prepol z custom plánu na generic plán po dostatočnom počte vykonaní, a generic plán je katastrofálne zlý.

24. decembra 2025

Funguje v psql, nestabilne v produkcii: Ticha vrazda LISTEN/NOTIFY cez PgBouncer

PostgreSQL LISTEN/NOTIFY funguje perfektne v lokalnom testovani ale notifikacie nahodne prestanu prichodit v produkcii. Vinik: transaction pooling ticho prideluje vase spojenie niekomu inemu.

18. decembra 2025

Pakety prichadzaju ale aplikacia timeoutuje: rp_filter pasca v Kubernetes

tcpdump ukazuje pakety ktore prichadzaju, ale aplikacia nic nevidi. Vinik: Linux reverse path filtering ticho zahadzuje pakety predtym nez dosiahnu iptables, sposobene asymetrickym routovanim.

12. decembra 2025

'No space left on device' s 40% voľného disku: Inode a OverlayFS Death Spiral

df -h ukazuje 40% voľného miesta. Ale váš kontajner stále padá s ENOSPC. Vinník: vyčerpanie inodov na overlayfs vrstvách, neviditeľné pre štandardný monitoring.

7. decembra 2025

Vyčerpanie Connection Poolu: Tichý Spúšťač Výpadkov

Aplikácia visí, ale databáza vyzerá zdravo. Najčastejšie je vyčerpaný connection pool. Ukážem detekciu, rozumné dimenzovanie a prevenciu únikov spojení.

30. novembra 2025

pg_waldump WAL Forenzika: Rekonštrukcia Čo Sa Stalo s Tvojimi Dátami

Niečo zmazalo riadky z produkcie ale nikto nepriznáva že spustil DELETE. Použi pg_waldump na analýzu WAL súborov a rekonštruuj presne čo sa stalo a kedy.

24. novembra 2025

5000 Unacked správ a stúpa: Zastav RabbitMQ consumer meltdowny v CI

Queue vyzerá zdravo až do deploymentu, potom messages_unacknowledged exploduje, pamäť stúpa a redelivery storms začínajú. Vinník: tvoj prefetch je príliš vysoký a nikto netestoval skutočné ack správanie.

22. novembra 2025

Kubernetes OOM Killer: Prečo Kontajner Zomiera pri 50% Pamäte

Kontajner má 4GB memory limit ale OOM kill pri 2GB used. Kernel buffers, page cache a cgroup accounting triky spôsobujú skoré OOMKills. Tu je celý obraz.

16. novembra 2025

Jedna partition na 99% CPU: Zastav Kafka hotspoty skôr ako dorazia do produkcie

Všetky partitiony vyzerajú vyvážené v testovaní, potom príde produkčný traffic a jedna partition sa roztopí. Vinník: tvoj partition key má otrásnú kardinalitu a nikto si toho nevšimol.

15. novembra 2025

Kubernetes APF vyhladovanie: keď jeden controller zablokuje kubectl

APF vie vyhladovať Kubernetes API: kubectl visí, controllery timeoutujú a rastú 429. Runbook na izoláciu klienta, úpravu FlowSchema a verifikáciu.

14. novembra 2025

Envoy/Istio 503 UF/UO/UT: keď výpadok robí mesh, nie aplikácia

Envoy/Istio vie vrátiť 503 UF/UO/UT, keď pretečie connection pool. Ako čítať flags, pozrieť proxy stats, upraviť DestinationRule a rýchlo overiť.

2. novembra 2025

Elasticsearch Hot Shard Problém: Keď Jeden Node Robí Všetku Prácu

5 data nodov ale jeden je na 100% CPU. Nerovnomerné routing kľúče vytvárajú hot shardy. Ukážem ako detekovať skew a opraviť ho pomocou routing stratégií.

16. októbra 2025

Logical Replication Slot WAL Bloat: Keď Subscribery Odídu Offline

Disk sa plní WAL súbormi. Príčina: logical replication slot consumer odišiel offline a PostgreSQL drží všetok WAL odvtedy pretože by mohol byť potrebný.

9. septembra 2025

eBPF Off-CPU Analýza: Nájdenie Latencie Ktorú Metriky Nevidia

CPU je na 20% ale latencia je 500ms. Štandardné profilery neukazujú nič. Appka čaká, nepočíta. Ukážem ako použiť eBPF na nájdenie na čo čaká.

7. septembra 2025

Kubernetes conntrack Vyčerpanie: Tichý Zabijak Paketov

Náhodné DNS timeouty, dropped spojenia, služby timeout-ujú. Vaša nf_conntrack tabuľka je plná. Ukážem ako diagnostikovať, monitorovať a opraviť tento K8s networking problém.

3. júna 2025

Redis Memory Fragmentácia: Keď maxmemory Nestačí

Váš Redis má 4GB maxmemory ale RSS ukazuje 6GB. OOM killer zasiahne. Vysvetlím jemalloc fragmentáciu s reprodukciou a tuningom activedefrag.

22. mája 2025

GIN Index Pending List Overflow: Rýchle Zápisy, Pomalé Vyhľadávanie

Full-text search bol rýchly, teraz je pomalý. Príčina: GIN index pending list narástol obrovský počas bulk insertov a každé vyhľadávanie musí teraz skenovať nezoradené pending záznamy.

17. apríla 2025

ICU Collation Version Drift: Keď Upgrade Databázy Rozbije Tvoje Indexy

Query vracia nesprávne výsledky po upgrade OS. Príčina: ICU library verzia sa zmenila, pravidlá collation sa posunuli a indexy sú teraz zoradené nekonzistentne s novým poradím.

15. marca 2025

Java Profilovanie v Hardened Kubernetes: Keď Security Blokuje Tvoj Debugger

Nemôžeš pripojiť profiler k produkčnej JVM. seccomp blokuje perf_event_open, container dropol CAP_SYS_PTRACE a PodSecurityPolicy bráni privileged mode. Tu je ako profilovať aj tak.

7. marca 2025

PostgreSQL Partial Index: Plánovač Ignoruje Tvoj Index

Query skenuje celú tabuľku napriek perfektnému partial indexu. Príčina: WHERE klauzula query sa presne nezhoduje s predikátom indexu, alebo štatistiky zavádzajú plánovač.

4. marca 2025

Go cgo DNS Resolution Thread Explózia: Keď net.LookupHost Spawne Tisíce Threadov

Go aplikácia má zrazu 10,000 threadov konzumujúcich všetku pamäť. Príčina: cgo-based DNS resolution blokujúce v pomalých DNS prostrediach, obchádzajúce Go's goroutine scheduler.

25. februára 2025

eBPF Run-Queue Latency: Hľadanie Off-CPU Bottlenecku

CPU využitie je nízke ale requesty sú pomalé. Skrytý vinník: čas strávený čakaním v scheduler run-queue, neviditeľný pre tradičné profilery ale viditeľný s eBPF off-CPU analýzou.

17. februára 2025

Linux ARP Cache Zastarané Záznamy: Blackhole Traffic Po Failoveri

Traffic ide na starý server po failoveri. Príčina: Linux ARP cache drží MAC adresu zlyhajúceho nodu, posiela pakety na nedosiahnuteľnú destináciu minúty.

14. februára 2025

Gossip Protocol Ghost Nodes: IP Reuse Strašiaci Váš Cluster

Nový node sa pripája ku clusteru ale je odmietaný. IP starého nodu je stále v blackliste failure detection gossip protokolu. Zombie membership záznam žije ďalej.

10. februára 2025

Kubernetes Ghost Connections: Zastarané Conntrack DNAT Záznamy

Service vracia zlé pod IP po škálovaní. Príčina: Linux conntrack drží DNAT záznamy dlhšie ako existujú pody, smeruje traffic na zmazané endpointy.

5. februára 2025

Dvojité Účtovanie z Idempotency Keys: Pasca Replica Lag

Perfektná idempotency logika, ale zákazníci sú stále účtovaní dvakrát. Príčina: kontrola idempotency keys voči read replice ktorá je sekundy za primary počas špičiek.

29. januára 2025

PostgreSQL Read Replica Konflikty: Prečo sa vaše dotazy rušia

Dotazy na read replikách zlyhávajú s 'canceling statement due to conflict with recovery'. Riešenie závisí od toho, ktorý z 5 typov konfliktov máte - tu je návod ako diagnostikovať a vyriešiť každý z nich.

28. januára 2025

Redis Cluster Migrácia Slotov: Dočasná Explózia Pamäte

Redis nody OOMKilled počas rebalancingu clustra. Príčina: migrácia slotov kopíruje kľúče do cieľa pred zmazaním zo zdroja, dočasne zdvojnásobuje využitie pamäte.

27. januára 2025

Split-Brain z Posunu Hodín Dozadu: Wall Time v Lease-Based Systémoch

Dva nody súčasne veria že držia leader lease. Príčina: malá NTP korekcia hodín dozadu kombinovaná s kódom ktorý mieša wall-clock čas s duration-based timeoutmi.

22. januára 2025

Java OOMKilled So Stabilným Heapom: Native Memory, Direct Buffers a glibc Arenas

Heap metriky vyzerajú dobre, GC je spokojný, ale kontajner stále umiera. Vinník: native memory z direct buffers, JNI a glibc memory allocator fragmentácia.

20. januára 2025

Go p99 Latency Špičky: Vnorené context.WithTimeout Timer Búrky

Periodické latency špičky ktoré vyzerajú ako network jitter. Skutočná príčina: vnorené timeouty vytvárajú tisíce timerov ktoré zaťažujú Go runtime timer heap a spúšťajú GC scanning.

15. januára 2025

PostgreSQL Serialization Failures: Viac ako len 'Retry'

Dostávate 'could not serialize access due to concurrent update'? Riešenie nie je len retry logika - je to pochopenie kedy použiť ktorú isolation level a ako znížiť frekvenciu konfliktov.

15. januára 2025

gRPC Keepalive Nezhoda: Transport Closing Po Idle

gRPC spojenia sa náhodne zatvárajú s 'transport is closing'. Príčina: klient a server keepalive nastavenia sa nezhodujú, server terminuje idle spojenia.

13. januára 2025

Ghost Pod: Prečo váš Service stále posiela traffic na mŕtve endpointy

Náhodné ECONNRESET na niektorých nodoch. Endpointy vyzerajú správne. Vinník: conntrack NAT záznamy držia dlhodobé spojenia pripnuté k podom, ktoré už neexistujú.

5. januára 2025

PostgreSQL OOM by Design: work_mem × Parallel Workers × Plan Nodes

work_mem vyzerá malé na 256MB, ale parallel hash join so 4 workers naprieč 3 plan nodes používa 3GB. Tu je ako zabrániť PostgreSQL legitímne OOMnúť váš kontajner.

28. decembra 2024

JVM Metaspace OOM v Kubernetes: Prečo MaxMetaspaceSize Nestačí

Pod OOMKilled napriek nastavenému MaxMetaspaceSize. Príčina: Metaspace rastie mimo heap, container memory limit nepočíta s tým, a triedy sa neuvoľňujú.

23. decembra 2024

Index Ktorý Zabil Write Performance: Strata PostgreSQL HOT Updates

Pridanie indexu pre výkon spôsobilo 10x pomalšie zápisy. Kontra-intuitívna príčina: nový index rozbil HOT updaty, meniaci lacné in-place updates na drahé full-row rewrites s masívnym bloatom.

19. decembra 2024

PostgreSQL 'cached plan must not change result type' Počas Zero-Downtime Migrácií

Rolling deploy zlyháva s cached plan chybami po ALTER TABLE. Príčina: server-side prepared statements cachujú query plány ktoré sa rozbijú pri zmene schémy.

11. decembra 2024

etcd Watch Replay Búrky: Keď Obrovské ConfigMapy Zabíjajú Control Plane

Apiserver je 'náhodne pomalý'. Príčina: veľké, často aktualizované ConfigMapy spúšťajú watch compaction, čo spôsobuje simultánny relist tisícov kontrolérov.

5. decembra 2024

etcd Quota Alarm: Keď Váš Kubernetes Cluster Prejde do Read-Only

Cluster prestane prijímať zápisy, pody sa nedajú naplánovať. Príčina: etcd dosiahol storage quota lebo compaction nebežal, história sa nahromadila nad limity.

27. novembra 2024

Kubernetes Headless Service DNS: Zastarané Záznamy Po Zmazaní Podu

Requesty idú na neexistujúce pody. Príčina: headless service DNS záznamy pretrvávajú v klient DNS cache po zmazaní podov, pred propagáciou endpoints update.

22. novembra 2024

Traffic Ide na Mŕtve Pody: Conntrack Zastaralé NAT Mapovanie

Deploy spôsobuje 503 presne 2 minúty. Problém: conntrack drží NAT mapovanie na staré pod IP aj po tom čo Kubernetes odstráni endpointy.

14. novembra 2024

Vyčerpanie Ephemeral Portov: Node Ktorý 'Pokazí'

Jeden Kubernetes node začne zlyhávať pripojenia k externým službám zatiaľ čo pody vyzerajú zdravé. Skrytá príčina: sidecar proxy vyčerpávajú ephemeral porty krátkodobými spojeniami.

11. novembra 2024

PMTU Blackholes: Keď Iba Veľké Odpovede Visia

Malé API odpovede fungujú, veľké visia navždy. Príčina: ICMP 'Fragmentation Needed' správy filtrované firewallmi, rozbíjajú Path MTU Discovery v overlay sieťach.

7. novembra 2024

kube-proxy Mikro-Výpadky: Problém xtables Lock Contencie

Náhodné 1-3 sekundové výpadky spojení počas deploymentov. CPU vyzerá v poriadku, pamäť stabilná. Skrytá príčina: iptables-restore drží xtables lock počas endpoint churnu.

4. novembra 2024

TCP TIME_WAIT Vyčerpanie Portov: Keď Connection Pooling Nestačí

Služba sa nemôže pripojiť k databáze - 'cannot assign requested address'. Príčina: ephemeral porty vyčerpané tisíckami socketov v TIME_WAIT stave.

28. októbra 2024

VXLAN Náhodné Straty Paketov: Pasca Checksum Offload

gRPC volania medzi nodmi náhodne zlyhávajú ale lokálna komunikácia funguje. Vinník: TX checksum offload poškodzuje VXLAN hlavičky na špecifických NIC driveroch.

21. októbra 2024