#performance

49 článkov

Redis AOF fsync latency špičky: keď sa durabilita stane tvojím p99

Redis AOF vie spraviť z durability p99 špičky: fsync tlak a BGREWRITEAOF fork CoW. Runbook na dôkaz, bezpečné mitigácie a guardrails.

9. januára 2026

Prometheus WAL replay peklo: pomalý štart a chýbajúce alerty

Keď Prometheus štartuje desiatky minút, často je vinník WAL replay. Ako to dokázať z logov a disku, bezpečne sa zotaviť a predísť blind spotom.

5. januára 2026

tcpdump vidí SYN, ale služba timeoutuje: pasca listen backlogu

Klienti timeoutujú, tcpdump ukazuje SYN (niekedy aj SYN-ACK), ale aplikácia nič neloguje. Častý vinník: Linux listen/accept fronty, ktoré sa pri load-e alebo CPU starvation preplnia.

3. januára 2026

ingress-nginx reload búrky: prečo 502 špičky sedia s Ingress churnom

Reloady NGINX Ingressu vedia dropovať keep-alive a robiť 502 špičky pri častých zmenách. Runbook na dôkaz reloadu, zníženie churnu a hardening.

28. decembra 2025

EXPLAIN vám klamal: PostgreSQL Prepared Statement Plan Cliff

Váš EXPLAIN vyzerá perfektne ale produkcia horí. Vinník: PostgreSQL ticho prepol z custom plánu na generic plán po dostatočnom počte vykonaní, a generic plán je katastrofálne zlý.

24. decembra 2025

Prometheus native histogramy v produkcii: rollout plán, budgety a failure módy

Prometheus native histogramy vedia odpáliť pamäť, WAL aj remote_write. Návod na postupné nasadenie, budgety a konkrétne queries na verifikáciu.

20. decembra 2025

PostgreSQL checkpoint špičky: prečo p99 exploduje každých N minút

Reprodukovateľný postup na diagnostiku a odstránenie checkpoint-induced latency špičiek pomocou pgbench, pg_stat_bgwriter a WAL/IO budgetu.

8. decembra 2025

Vyčerpanie Connection Poolu: Tichý Spúšťač Výpadkov

Aplikácia visí, ale databáza vyzerá zdravo. Najčastejšie je vyčerpaný connection pool. Ukážem detekciu, rozumné dimenzovanie a prevenciu únikov spojení.

30. novembra 2025

ClickHouse ReplacingMergeTree: Ilúzia Deduplikácie

ReplacingMergeTree nededuplikuje pri SELECT. Merguje eventuálne. Vaše queries vracajú duplikáty kým neprebehne background merge. Tu je riešenie.

13. novembra 2025

Kafka rebalance búrky: prečo scale-out consumerov vie zhoršiť lag

Kafka rebalance burky vedia zhoršiť lag pri scale-out. Runbook na max.poll, heartbeat, cooperative-sticky a config diffs, ktoré stabilizujú group.

10. novembra 2025

Kubernetes DNS: Latency Daň ndots:5

Každý DNS query v K8s robí 5 neúspešných lookupov pred úspechom. ndots:5 default spôsobuje 100ms+ latenciu. Tu je ako to opraviť.

10. novembra 2025

Go GOMAXPROCS v Kontajneroch: Problém Detekcie CPU

Go vidí 64 CPU hosta ale váš kontajner má limit 2 CPU. GOMAXPROCS=64 spôsobuje nadmerný context switching a throttling. Tu je riešenie.

5. novembra 2025

Python GIL a Kubernetes CPU Limity: Pasca Threadingu

Vaša Python appka má 4 thready ale K8s dáva 1 CPU. GIL + CFS kvóta = brutálny throttling. Ukážem prečo a ako správne nastaviť workery.

27. októbra 2025

Kubernetes p99 špičky bez OOM: Diagnostika cgroup v2 memory.high cez PSI

Použite PSI a cgroup v2 memory.high na vysvetlenie p99 špičiek bez OOMKill. Kubernetes runbook s príkazmi, diffs, bezpečnými mitigáciami a alertmi.

25. októbra 2025

Connection Pool Sizing s Little's Law: Matematický Prístup k HikariCP a PgBouncer

Pool size 50 lebo tak to bolo vždy? Ukážem ako použiť Little's Law na výpočet optimálnej veľkosti poolu a dokážem to load testom.

22. októbra 2025

Kubernetes CPU Throttling Pitva: Prečo p99 Latencia Exploduje pri 40% CPU Usage

CPU vyzerá OK, ale tail latencia je katastrofálna. Ukážem ako korelovať CFS throttling s latency spikes a prečo odstránenie CPU limitov môže paradoxne pomôcť.

19. októbra 2025

Elasticsearch Hot Shard Problém: Keď Jeden Node Robí Všetku Prácu

5 data nodov ale jeden je na 100% CPU. Nerovnomerné routing kľúče vytvárajú hot shardy. Ukážem ako detekovať skew a opraviť ho pomocou routing stratégií.

16. októbra 2025

UUIDv4 vs ULID vs TSID: Dopad na PostgreSQL B-Tree Indexy po 100M Záznamoch

Náhodné UUID ako Primary Key spôsobujú index bloat a random I/O. Benchmark s konkrétnymi číslami - veľkosť indexu, cache hit ratio a WAL volume po 100M insertoch.

14. októbra 2025

JWT Revokovanie Stratégie: Keď Stateless Tokeny Potrebujú Stav

Používateľ kompromitovaný, treba revokovať JWT okamžite. Ale JWT sú immutable. Porovnávam allowlist, denylist a krátku expiráciu s performance benchmarkmi.

12. októbra 2025

Structured Logging Performance: Keď Sa Logger Stane Bottleneckom

Pri 50k logov/sec JSON serializácia žerie 30% CPU. Štandardná knižnica encoding/json je pomalá. Benchmarkujem zap vs zerolog vs slog so skutočnými číslami.

28. septembra 2025

PostgreSQL HOT Updates + FILLFACTOR: Ako Znížiť Index Bloat o 60%

Vacuum beží úspešne, ale disk rastie a cache hit ratio klesá. Ukážem ako kvantifikovať HOT-update eligibility pomocou pgstattuple a optimalizovať fillfactor.

23. septembra 2025

Keď Prepared Statements Spravia PostgreSQL 10× Pomalším: Generic Plan Trap

Rovnaký query, rovnaké parametre, ale prod je pomalý a staging funguje. Ukážem ako reprodukovať generic plan problém s pgBouncer, Java/Go a ako ho fixnúť.

15. septembra 2025

eBPF Off-CPU Analýza: Nájdenie Latencie Ktorú Metriky Nevidia

CPU je na 20% ale latencia je 500ms. Štandardné profilery neukazujú nič. Appka čaká, nepočíta. Ukážem ako použiť eBPF na nájdenie na čo čaká.

7. septembra 2025

PostgreSQL Autovacuum SLO Tuning: Ako nastaviť vacuum pre 200M riadkov a 5k UPSERT/s

Autovacuum je buď ignorovaný alebo cargo-cult tunovaný. Ukážem ako ho premeniť na SLO-driven systém s konkrétnymi číslami, pg_stat metriky a reprodukovateľným testom.

4. septembra 2025

Java Virtual Threads vs Reactive: Kedy Zahodiť WebFlux za Project Loom

Virtual Threads v Java 21 sľubujú jednoduchší kód ako Reactive. Benchmarkujem oba pri 10k concurrent connections a ukážem kde ktorý vyhráva.

27. augusta 2025

gRPC Deadline Propagácia: Prevencia Kaskádových Zlyhaní

Frontend sa vzdá po 5s ale backend pracuje ďalších 30s. Bez deadline propagácie mrháte resources na odsúdené requesty. Ukážem ako to implementovať v Go.

23. augusta 2025

JVM Native Memory v Kubernetes: Prečo Pod Dostane OOMKilled s 50% Heap

Heap je 50% plný ale pod dostane OOMKilled. Ukážem ako sledovať native memory (Metaspace, threads, NIO) a zabrániť container memory problémom.

16. augusta 2025

gRPC v Kubernetes: Prečo Service round-robin klame

Prečo má jeden pod 90% trafficu pri gRPC. Reprodukovateľný lab, riešenia od client-side LB po service mesh, a production checklist.

11. augusta 2025

Linux Page Cache Thrashing v Kontajneroch: Keď Voľná Pamäť Nie Je Voľná

Váš kontajner má 2GB voľné ale beží pomaly. Page cache sa počíta proti memory limitu. File I/O vytláča code pages. Vysvetlím s benchmarkmi a riešeniami.

6. augusta 2025

Prometheus Kardinalita Explózia: Detekcia, Prevencia a Obnova

Jeden developer pridal user_id label. Prometheus dostal OOM. Ukážem ako detekovať high-cardinality metriky skôr než zabiajú monitoring, s relabel configami na ich drop.

23. júla 2025

PostgreSQL TOAST Stratégia: Prečo Váš JSON Stĺpec Zabíja Výkon Queries

SELECT * na tabuľke s JSON je 10x pomalší ako očakávané. Ukážem ako TOAST storage funguje a kedy zmeniť stratégie pre veľké stĺpce.

24. júna 2025

Tail-based sampling v OpenTelemetry: Sizing, pamäťové pády a cost model

Praktický sizing guide pre tail sampling v OpenTelemetry Collector. Od decision_wait cez memory limity až po cost-benefit analýzu.

21. júna 2025

Cache Stampede Prevencia: Probabilistická Skorá Expirácia (X-Fetch)

100 requestov zasiahne expirovanú cache súčasne. Všetkých 100 sa pýta databázy. Implementujem X-Fetch algoritmus ktorý refreshuje cache pred expiráciou bez zamykania.

14. júna 2025

Redis Memory Fragmentácia: Keď maxmemory Nestačí

Váš Redis má 4GB maxmemory ale RSS ukazuje 6GB. OOM killer zasiahne. Vysvetlím jemalloc fragmentáciu s reprodukciou a tuningom activedefrag.

22. mája 2025

CoreDNS vs NodeLocal DNS Cache: Zníženie Kubernetes DNS Latencie 10x

Vaše pody robia 100 DNS queries per request. CoreDNS je bottleneck. Benchmarkujem NodeLocal DNS cache a ukážem konfiguráciu pre produkciu.

8. mája 2025

GIN Index Pending List Overflow: Rýchle Zápisy, Pomalé Vyhľadávanie

Full-text search bol rýchly, teraz je pomalý. Príčina: GIN index pending list narástol obrovský počas bulk insertov a každé vyhľadávanie musí teraz skenovať nezoradené pending záznamy.

17. apríla 2025

Adaptive Concurrency Limits: Prestaňte Hádať Veľkosti Thread Poolov

Thread pool 200 lebo to hovorí Stack Overflow? Netflix algoritmus upravuje konkurenciu automaticky podľa latencie. Ukážem ako funguje s benchmarkmi.

11. apríla 2025

Soft Delete past: Prečo is_deleted zabíja tvoju databázu (a čo s tým)

Praktický rozbor prečo soft delete po rokoch rozbije výkon databázy. Benchmarky, partitioning riešenie a migračný checklist.

23. marca 2025

Java Profilovanie v Hardened Kubernetes: Keď Security Blokuje Tvoj Debugger

Nemôžeš pripojiť profiler k produkčnej JVM. seccomp blokuje perf_event_open, container dropol CAP_SYS_PTRACE a PodSecurityPolicy bráni privileged mode. Tu je ako profilovať aj tak.

7. marca 2025

PostgreSQL Partial Index: Plánovač Ignoruje Tvoj Index

Query skenuje celú tabuľku napriek perfektnému partial indexu. Príčina: WHERE klauzula query sa presne nezhoduje s predikátom indexu, alebo štatistiky zavádzajú plánovač.

4. marca 2025

Go cgo DNS Resolution Thread Explózia: Keď net.LookupHost Spawne Tisíce Threadov

Go aplikácia má zrazu 10,000 threadov konzumujúcich všetku pamäť. Príčina: cgo-based DNS resolution blokujúce v pomalých DNS prostrediach, obchádzajúce Go's goroutine scheduler.

25. februára 2025

eBPF Run-Queue Latency: Hľadanie Off-CPU Bottlenecku

CPU využitie je nízke ale requesty sú pomalé. Skrytý vinník: čas strávený čakaním v scheduler run-queue, neviditeľný pre tradičné profilery ale viditeľný s eBPF off-CPU analýzou.

17. februára 2025

PostgreSQL Read Replica Konflikty: Prečo sa vaše dotazy rušia

Dotazy na read replikách zlyhávajú s 'canceling statement due to conflict with recovery'. Riešenie závisí od toho, ktorý z 5 typov konfliktov máte - tu je návod ako diagnostikovať a vyriešiť každý z nich.

28. januára 2025

Go p99 Latency Špičky: Vnorené context.WithTimeout Timer Búrky

Periodické latency špičky ktoré vyzerajú ako network jitter. Skutočná príčina: vnorené timeouty vytvárajú tisíce timerov ktoré zaťažujú Go runtime timer heap a spúšťajú GC scanning.

15. januára 2025

PostgreSQL OOM by Design: work_mem × Parallel Workers × Plan Nodes

work_mem vyzerá malé na 256MB, ale parallel hash join so 4 workers naprieč 3 plan nodes používa 3GB. Tu je ako zabrániť PostgreSQL legitímne OOMnúť váš kontajner.

28. decembra 2024

Index Ktorý Zabil Write Performance: Strata PostgreSQL HOT Updates

Pridanie indexu pre výkon spôsobilo 10x pomalšie zápisy. Kontra-intuitívna príčina: nový index rozbil HOT updaty, meniaci lacné in-place updates na drahé full-row rewrites s masívnym bloatom.

19. decembra 2024

etcd Watch Replay Búrky: Keď Obrovské ConfigMapy Zabíjajú Control Plane

Apiserver je 'náhodne pomalý'. Príčina: veľké, často aktualizované ConfigMapy spúšťajú watch compaction, čo spôsobuje simultánny relist tisícov kontrolérov.

5. decembra 2024

kube-proxy Mikro-Výpadky: Problém xtables Lock Contencie

Náhodné 1-3 sekundové výpadky spojení počas deploymentov. CPU vyzerá v poriadku, pamäť stabilná. Skrytá príčina: iptables-restore drží xtables lock počas endpoint churnu.

4. novembra 2024

TCP TIME_WAIT Vyčerpanie Portov: Keď Connection Pooling Nestačí

Služba sa nemôže pripojiť k databáze - 'cannot assign requested address'. Príčina: ephemeral porty vyčerpané tisíckami socketov v TIME_WAIT stave.

28. októbra 2024