#kubernetes

50 článkov

Redis AOF fsync latency špičky: keď sa durabilita stane tvojím p99

Redis AOF vie spraviť z durability p99 špičky: fsync tlak a BGREWRITEAOF fork CoW. Runbook na dôkaz, bezpečné mitigácie a guardrails.

9. januára 2026

tcpdump vidí SYN, ale služba timeoutuje: pasca listen backlogu

Klienti timeoutujú, tcpdump ukazuje SYN (niekedy aj SYN-ACK), ale aplikácia nič neloguje. Častý vinník: Linux listen/accept fronty, ktoré sa pri load-e alebo CPU starvation preplnia.

3. januára 2026

ingress-nginx reload búrky: prečo 502 špičky sedia s Ingress churnom

Reloady NGINX Ingressu vedia dropovať keep-alive a robiť 502 špičky pri častých zmenách. Runbook na dôkaz reloadu, zníženie churnu a hardening.

28. decembra 2025

Certifikat nie je expirnuty, vas node ano: Time Drift rozbitie TLS a JWT v Kubernetes

Sporadicke TLS handshake zlyhania a JWT zamietnutia napriec sluzbami. Vsetko prejde ked to skontrolujete. Vinik: hodiny nodu sa posunuli alebo skocili, a NTP to opravilo skor nez ste to stihli zachytit.

26. decembra 2025

Prometheus remote_write backpressure: keď monitoring zaplní disk a ešte aj stratí dáta

Runbook pre výpadky remote_write: ako zmerať lag, odhadnúť time-to-disk-full, bezpečne ladiť queue_config a vedome zvoliť trade-off medzi prežitím a stratou.

24. decembra 2025

Pakety prichadzaju ale aplikacia timeoutuje: rp_filter pasca v Kubernetes

tcpdump ukazuje pakety ktore prichadzaju, ale aplikacia nic nevidi. Vinik: Linux reverse path filtering ticho zahadzuje pakety predtym nez dosiahnu iptables, sposobene asymetrickym routovanim.

12. decembra 2025

Kubernetes TLS Certifikát Rotácia: Výpadok o 3:00 Ráno

Certifikát expiroval o 3:00, služba padla. cert-manager renewal ticho zlyhal. Ukážem monitoring, testovanie rotácie a prevenciu cert-related výpadkov.

9. decembra 2025

'No space left on device' s 40% voľného disku: Inode a OverlayFS Death Spiral

df -h ukazuje 40% voľného miesta. Ale váš kontajner stále padá s ENOSPC. Vinník: vyčerpanie inodov na overlayfs vrstvách, neviditeľné pre štandardný monitoring.

7. decembra 2025

OpenTelemetry Collector backpressure: dropy, memory_limiter a queue ako guardrails

OpenTelemetry Collector pri loade dropuje spany kvôli backpressure exportérov. Oprava cez memory_limiter, queue a batch tuning + verifikácia.

4. decembra 2025

CSI VolumeAttachment zaseknutý: pody v ContainerCreating a drain, ktorý sa nepohne

Pody zaseknuté v ContainerCreating často skrývajú stuck CSI VolumeAttachment. Runbook na diagnostiku, bezpečné detach, prevenciu data loss a alerty.

30. novembra 2025

RSS Contracts: Ako prestat zabijat Java pody v Kubernetes (OOMKilled) testovanim RSS ako API

Cgroup RSS budgety, CI sampling a runtime headroom ti chytia JVM memory regresie skor, nez trafia produkciu.

27. novembra 2025

Pod zaseknutý v Terminating: produkčný rozhodovací strom pre finalizery, volume a mŕtve nody

Konzervatívny runbook na bezpečné odblokovanie Terminating Podov: finalizery, CSI/volume cleanup, mŕtve nody a kedy (a ako) použiť force delete.

26. novembra 2025

Kubernetes graceful shutdown ako kontrakt: nula 502 počas rolloutov (HTTP + gRPC)

Reprodukovateľný postup ako odstrániť 502/ECONNRESET pri rolloute: readiness-driven draining, preStop, SIGTERM a merateľný drain budget.

22. novembra 2025

Ephemeral-storage evictions v Kubernetes: logová búrka, ktorá vyhodila zdravé pody

Pody sú evicted kvôli ephemeral-storage aj keď disk vyzerá voľný. Runbook: nodefs/imagefs, logy, kubelet GC a nastavenie budgetov + log rotácia.

18. novembra 2025

Kubernetes OOM Killer: Prečo Kontajner Zomiera pri 50% Pamäte

Kontajner má 4GB memory limit ale OOM kill pri 2GB used. Kernel buffers, page cache a cgroup accounting triky spôsobujú skoré OOMKills. Tu je celý obraz.

16. novembra 2025

Kubernetes APF vyhladovanie: keď jeden controller zablokuje kubectl

APF vie vyhladovať Kubernetes API: kubectl visí, controllery timeoutujú a rastú 429. Runbook na izoláciu klienta, úpravu FlowSchema a verifikáciu.

14. novembra 2025

Kubernetes DNS: Latency Daň ndots:5

Každý DNS query v K8s robí 5 neúspešných lookupov pred úspechom. ndots:5 default spôsobuje 100ms+ latenciu. Tu je ako to opraviť.

10. novembra 2025

Envoy outlier detection brownouty: keď mesh vyhodí zdravé pody

Debug Istio/Envoy outlier detection brownoutov: prečo mesh vyhadzuje zdravé pody a rastú 503 v produkcii. Obsahuje xDS checks, bezpečné fixy a alerty.

6. novembra 2025

Go GOMAXPROCS v Kontajneroch: Problém Detekcie CPU

Go vidí 64 CPU hosta ale váš kontajner má limit 2 CPU. GOMAXPROCS=64 spôsobuje nadmerný context switching a throttling. Tu je riešenie.

5. novembra 2025

Envoy/Istio 503 UF/UO/UT: keď výpadok robí mesh, nie aplikácia

Envoy/Istio vie vrátiť 503 UF/UO/UT, keď pretečie connection pool. Ako čítať flags, pozrieť proxy stats, upraviť DestinationRule a rýchlo overiť.

2. novembra 2025

Cilium BPF conntrack map full: náhodné resetovania aj keď conntrack vyzerá OK

Náhodné resetovania s Cilium? Ako sa zaplnia eBPF conntrack (CT) mapy, prečo netfilter conntrack vyzerá OK, a runbook na sizing a verifikáciu v Kubernetes.

29. októbra 2025

Python GIL a Kubernetes CPU Limity: Pasca Threadingu

Vaša Python appka má 4 thready ale K8s dáva 1 CPU. GIL + CFS kvóta = brutálny throttling. Ukážem prečo a ako správne nastaviť workery.

27. októbra 2025

Kubernetes p99 špičky bez OOM: Diagnostika cgroup v2 memory.high cez PSI

Použite PSI a cgroup v2 memory.high na vysvetlenie p99 špičiek bez OOMKill. Kubernetes runbook s príkazmi, diffs, bezpečnými mitigáciami a alertmi.

25. októbra 2025

Kubernetes CPU Throttling Pitva: Prečo p99 Latencia Exploduje pri 40% CPU Usage

CPU vyzerá OK, ale tail latencia je katastrofálna. Ukážem ako korelovať CFS throttling s latency spikes a prečo odstránenie CPU limitov môže paradoxne pomôcť.

19. októbra 2025

CI/CD pre monorepo: Rýchlosť, cache, selektívne testy a supply-chain bezpečnosť

Kompletný blueprint pre efektívny CI/CD pipeline v monorepo - od path filters cez remote cache až po SBOM a SLSA. Praktické riešenia, nie teória.

4. októbra 2025

JVM Native Memory v Kubernetes: Prečo Pod Dostane OOMKilled s 50% Heap

Heap je 50% plný ale pod dostane OOMKilled. Ukážem ako sledovať native memory (Metaspace, threads, NIO) a zabrániť container memory problémom.

16. augusta 2025

gRPC v Kubernetes: Prečo Service round-robin klame

Prečo má jeden pod 90% trafficu pri gRPC. Reprodukovateľný lab, riešenia od client-side LB po service mesh, a production checklist.

11. augusta 2025

Linux Page Cache Thrashing v Kontajneroch: Keď Voľná Pamäť Nie Je Voľná

Váš kontajner má 2GB voľné ale beží pomaly. Page cache sa počíta proti memory limitu. File I/O vytláča code pages. Vysvetlím s benchmarkmi a riešeniami.

6. augusta 2025

HTTP Keep-Alive Connection Reset: Prečo Vaše Requesty Zlyhávajú s 'Connection Reset by Peer'

Sporadické 'connection reset by peer' chyby v produkcii. Ukážem ako nesúlad keep-alive timeoutov medzi klientom a serverom toto spôsobuje a ako to opraviť.

16. júla 2025

Tail-based sampling v OpenTelemetry: Sizing, pamäťové pády a cost model

Praktický sizing guide pre tail sampling v OpenTelemetry Collector. Od decision_wait cez memory limity až po cost-benefit analýzu.

21. júna 2025

Kubernetes conntrack Vyčerpanie: Tichý Zabijak Paketov

Náhodné DNS timeouty, dropped spojenia, služby timeout-ujú. Vaša nf_conntrack tabuľka je plná. Ukážem ako diagnostikovať, monitorovať a opraviť tento K8s networking problém.

3. júna 2025

CoreDNS vs NodeLocal DNS Cache: Zníženie Kubernetes DNS Latencie 10x

Vaše pody robia 100 DNS queries per request. CoreDNS je bottleneck. Benchmarkujem NodeLocal DNS cache a ukážem konfiguráciu pre produkciu.

8. mája 2025

Kubernetes Cross-Zone Traffic: Skrytý Náklad Ktorý Žerie Váš Cloud Bill

Váš AWS účet má $5000/mesiac za data transfer. Polovica je cross-zone traffic v rámci clustera. Ukážem ako ho zmerať a znížiť.

8. apríla 2025

Kubernetes rollout bez výpadku DB: Ako zastaviť PostgreSQL connection storm

Reprodukovateľný lab na demonštráciu connection stormu pri K8s rolloutoch. PgBouncer, preStop hooks a jitter - praktické riešenia s benchmarkmi.

1. apríla 2025

Java Profilovanie v Hardened Kubernetes: Keď Security Blokuje Tvoj Debugger

Nemôžeš pripojiť profiler k produkčnej JVM. seccomp blokuje perf_event_open, container dropol CAP_SYS_PTRACE a PodSecurityPolicy bráni privileged mode. Tu je ako profilovať aj tak.

7. marca 2025

Go cgo DNS Resolution Thread Explózia: Keď net.LookupHost Spawne Tisíce Threadov

Go aplikácia má zrazu 10,000 threadov konzumujúcich všetku pamäť. Príčina: cgo-based DNS resolution blokujúce v pomalých DNS prostrediach, obchádzajúce Go's goroutine scheduler.

25. februára 2025

Gossip Protocol Ghost Nodes: IP Reuse Strašiaci Váš Cluster

Nový node sa pripája ku clusteru ale je odmietaný. IP starého nodu je stále v blackliste failure detection gossip protokolu. Zombie membership záznam žije ďalej.

10. februára 2025

Kubernetes Ghost Connections: Zastarané Conntrack DNAT Záznamy

Service vracia zlé pod IP po škálovaní. Príčina: Linux conntrack drží DNAT záznamy dlhšie ako existujú pody, smeruje traffic na zmazané endpointy.

5. februára 2025

Redis Cluster Migrácia Slotov: Dočasná Explózia Pamäte

Redis nody OOMKilled počas rebalancingu clustra. Príčina: migrácia slotov kopíruje kľúče do cieľa pred zmazaním zo zdroja, dočasne zdvojnásobuje využitie pamäte.

27. januára 2025

Java OOMKilled So Stabilným Heapom: Native Memory, Direct Buffers a glibc Arenas

Heap metriky vyzerajú dobre, GC je spokojný, ale kontajner stále umiera. Vinník: native memory z direct buffers, JNI a glibc memory allocator fragmentácia.

20. januára 2025

Ghost Pod: Prečo váš Service stále posiela traffic na mŕtve endpointy

Náhodné ECONNRESET na niektorých nodoch. Endpointy vyzerajú správne. Vinník: conntrack NAT záznamy držia dlhodobé spojenia pripnuté k podom, ktoré už neexistujú.

5. januára 2025

JVM Metaspace OOM v Kubernetes: Prečo MaxMetaspaceSize Nestačí

Pod OOMKilled napriek nastavenému MaxMetaspaceSize. Príčina: Metaspace rastie mimo heap, container memory limit nepočíta s tým, a triedy sa neuvoľňujú.

23. decembra 2024

etcd Watch Replay Búrky: Keď Obrovské ConfigMapy Zabíjajú Control Plane

Apiserver je 'náhodne pomalý'. Príčina: veľké, často aktualizované ConfigMapy spúšťajú watch compaction, čo spôsobuje simultánny relist tisícov kontrolérov.

5. decembra 2024

etcd Quota Alarm: Keď Váš Kubernetes Cluster Prejde do Read-Only

Cluster prestane prijímať zápisy, pody sa nedajú naplánovať. Príčina: etcd dosiahol storage quota lebo compaction nebežal, história sa nahromadila nad limity.

27. novembra 2024

Kubernetes Headless Service DNS: Zastarané Záznamy Po Zmazaní Podu

Requesty idú na neexistujúce pody. Príčina: headless service DNS záznamy pretrvávajú v klient DNS cache po zmazaní podov, pred propagáciou endpoints update.

22. novembra 2024

Traffic Ide na Mŕtve Pody: Conntrack Zastaralé NAT Mapovanie

Deploy spôsobuje 503 presne 2 minúty. Problém: conntrack drží NAT mapovanie na staré pod IP aj po tom čo Kubernetes odstráni endpointy.

14. novembra 2024

Vyčerpanie Ephemeral Portov: Node Ktorý 'Pokazí'

Jeden Kubernetes node začne zlyhávať pripojenia k externým službám zatiaľ čo pody vyzerajú zdravé. Skrytá príčina: sidecar proxy vyčerpávajú ephemeral porty krátkodobými spojeniami.

11. novembra 2024

PMTU Blackholes: Keď Iba Veľké Odpovede Visia

Malé API odpovede fungujú, veľké visia navždy. Príčina: ICMP 'Fragmentation Needed' správy filtrované firewallmi, rozbíjajú Path MTU Discovery v overlay sieťach.

7. novembra 2024

kube-proxy Mikro-Výpadky: Problém xtables Lock Contencie

Náhodné 1-3 sekundové výpadky spojení počas deploymentov. CPU vyzerá v poriadku, pamäť stabilná. Skrytá príčina: iptables-restore drží xtables lock počas endpoint churnu.

4. novembra 2024

VXLAN Náhodné Straty Paketov: Pasca Checksum Offload

gRPC volania medzi nodmi náhodne zlyhávajú ale lokálna komunikácia funguje. Vinník: TX checksum offload poškodzuje VXLAN hlavičky na špecifických NIC driveroch.

21. októbra 2024