#linux

14 článkov

Redis AOF fsync latency špičky: keď sa durabilita stane tvojím p99

Redis AOF vie spraviť z durability p99 špičky: fsync tlak a BGREWRITEAOF fork CoW. Runbook na dôkaz, bezpečné mitigácie a guardrails.

9. januára 2026

tcpdump vidí SYN, ale služba timeoutuje: pasca listen backlogu

Klienti timeoutujú, tcpdump ukazuje SYN (niekedy aj SYN-ACK), ale aplikácia nič neloguje. Častý vinník: Linux listen/accept fronty, ktoré sa pri load-e alebo CPU starvation preplnia.

3. januára 2026

Pakety prichadzaju ale aplikacia timeoutuje: rp_filter pasca v Kubernetes

tcpdump ukazuje pakety ktore prichadzaju, ale aplikacia nic nevidi. Vinik: Linux reverse path filtering ticho zahadzuje pakety predtym nez dosiahnu iptables, sposobene asymetrickym routovanim.

12. decembra 2025

'No space left on device' s 40% voľného disku: Inode a OverlayFS Death Spiral

df -h ukazuje 40% voľného miesta. Ale váš kontajner stále padá s ENOSPC. Vinník: vyčerpanie inodov na overlayfs vrstvách, neviditeľné pre štandardný monitoring.

7. decembra 2025

Kubernetes OOM Killer: Prečo Kontajner Zomiera pri 50% Pamäte

Kontajner má 4GB memory limit ale OOM kill pri 2GB used. Kernel buffers, page cache a cgroup accounting triky spôsobujú skoré OOMKills. Tu je celý obraz.

16. novembra 2025

Kubernetes p99 špičky bez OOM: Diagnostika cgroup v2 memory.high cez PSI

Použite PSI a cgroup v2 memory.high na vysvetlenie p99 špičiek bez OOMKill. Kubernetes runbook s príkazmi, diffs, bezpečnými mitigáciami a alertmi.

25. októbra 2025

eBPF Off-CPU Analýza: Nájdenie Latencie Ktorú Metriky Nevidia

CPU je na 20% ale latencia je 500ms. Štandardné profilery neukazujú nič. Appka čaká, nepočíta. Ukážem ako použiť eBPF na nájdenie na čo čaká.

7. septembra 2025

Linux Page Cache Thrashing v Kontajneroch: Keď Voľná Pamäť Nie Je Voľná

Váš kontajner má 2GB voľné ale beží pomaly. Page cache sa počíta proti memory limitu. File I/O vytláča code pages. Vysvetlím s benchmarkmi a riešeniami.

6. augusta 2025

Kubernetes conntrack Vyčerpanie: Tichý Zabijak Paketov

Náhodné DNS timeouty, dropped spojenia, služby timeout-ujú. Vaša nf_conntrack tabuľka je plná. Ukážem ako diagnostikovať, monitorovať a opraviť tento K8s networking problém.

3. júna 2025

eBPF Run-Queue Latency: Hľadanie Off-CPU Bottlenecku

CPU využitie je nízke ale requesty sú pomalé. Skrytý vinník: čas strávený čakaním v scheduler run-queue, neviditeľný pre tradičné profilery ale viditeľný s eBPF off-CPU analýzou.

17. februára 2025

Linux ARP Cache Zastarané Záznamy: Blackhole Traffic Po Failoveri

Traffic ide na starý server po failoveri. Príčina: Linux ARP cache drží MAC adresu zlyhajúceho nodu, posiela pakety na nedosiahnuteľnú destináciu minúty.

14. februára 2025

Kubernetes Ghost Connections: Zastarané Conntrack DNAT Záznamy

Service vracia zlé pod IP po škálovaní. Príčina: Linux conntrack drží DNAT záznamy dlhšie ako existujú pody, smeruje traffic na zmazané endpointy.

5. februára 2025

Vyčerpanie Ephemeral Portov: Node Ktorý 'Pokazí'

Jeden Kubernetes node začne zlyhávať pripojenia k externým službám zatiaľ čo pody vyzerajú zdravé. Skrytá príčina: sidecar proxy vyčerpávajú ephemeral porty krátkodobými spojeniami.

11. novembra 2024

TCP TIME_WAIT Vyčerpanie Portov: Keď Connection Pooling Nestačí

Služba sa nemôže pripojiť k databáze - 'cannot assign requested address'. Príčina: ephemeral porty vyčerpané tisíckami socketov v TIME_WAIT stave.

28. októbra 2024