Blog

Články o softvérovom vývoji, architektúre, technológiách a lekciách z praxe.

Ako postavit Solana escrow program pre marketplace sluzby (Anchor blueprint)

24. februára 2026

Prakticka architektura Solana escrow programu pre marketplace: account model, instrukcie, bezpecnostne invarianty a rollout plan do produkcie.

solana anchor smart-contracts architecture marketplace

Solana v roku 2026: use-casy, ktore sa naozaj nasadzuju

20. februára 2026

Prakticky prehlad realnych Solana use-casov v roku 2026: stablecoin platby, Actions/Blinks a operacne vzory, ktore viete dodat tento kvartal.

solana payments architecture stablecoins web3

Redis AOF fsync latency špičky: keď sa durabilita stane tvojím p99

9. januára 2026

Redis AOF vie spraviť z durability p99 špičky: fsync tlak a BGREWRITEAOF fork CoW. Runbook na dôkaz, bezpečné mitigácie a guardrails.

redis performance operations linux kubernetes reliability

Prometheus WAL replay peklo: pomalý štart a chýbajúce alerty

5. januára 2026

Keď Prometheus štartuje desiatky minút, často je vinník WAL replay. Ako to dokázať z logov a disku, bezpečne sa zotaviť a predísť blind spotom.

prometheus observability operations debugging performance

tcpdump vidí SYN, ale služba timeoutuje: pasca listen backlogu

3. januára 2026

Klienti timeoutujú, tcpdump ukazuje SYN (niekedy aj SYN-ACK), ale aplikácia nič neloguje. Častý vinník: Linux listen/accept fronty, ktoré sa pri load-e alebo CPU starvation preplnia.

linux kubernetes sietovanie tcp debugging performance reliability

PostgreSQL logical replication lag: veľké transakcie a reorder buffer spilly

1. januára 2026

Jedna obrovská transakcia vie pripnúť logical replication na hodiny. Runbook na rýchlu identifikáciu, bezpečné tunenie decodingu a kontrakt na bounded transakcie.

postgresql replication operations debugging reliability

Span Contracts: Trace-driven API contract testing z OpenTelemetry

31. decembra 2025

Odhaľ breaking zmeny v API z OTel spanov, hashuj len JSON shape a zastav CI bez ukladania payloadov.

opentelemetry observability testing api contract-testing

Circuit Breaker Anti-Patterns: Keď Ochrana Spôsobuje Výpadky

29. decembra 2025

Circuit breakery bránia kaskádovým zlyhaniam ale zlá konfigurácia ich zhoršuje. Ukážem 5 anti-patternov: zdieľané breakery, zlé thresholdy, žiadny fallback.

resilience microservices circuit-breaker fault-tolerance distributed-systems

ingress-nginx reload búrky: prečo 502 špičky sedia s Ingress churnom

28. decembra 2025

Reloady NGINX Ingressu vedia dropovať keep-alive a robiť 502 špičky pri častých zmenách. Runbook na dôkaz reloadu, zníženie churnu a hardening.

kubernetes ingress nginx debugging performance reliability

Certifikat nie je expirnuty, vas node ano: Time Drift rozbitie TLS a JWT v Kubernetes

26. decembra 2025

Sporadicke TLS handshake zlyhania a JWT zamietnutia napriec sluzbami. Vsetko prejde ked to skontrolujete. Vinik: hodiny nodu sa posunuli alebo skocili, a NTP to opravilo skor nez ste to stihli zachytit.

kubernetes tls jwt debugging time ntp chrony

EXPLAIN vám klamal: PostgreSQL Prepared Statement Plan Cliff

24. decembra 2025

Váš EXPLAIN vyzerá perfektne ale produkcia horí. Vinník: PostgreSQL ticho prepol z custom plánu na generic plán po dostatočnom počte vykonaní, a generic plán je katastrofálne zlý.

postgresql performance debugging query-planning prepared-statements jdbc

Prometheus remote_write backpressure: keď monitoring zaplní disk a ešte aj stratí dáta

24. decembra 2025

Runbook pre výpadky remote_write: ako zmerať lag, odhadnúť time-to-disk-full, bezpečne ladiť queue_config a vedome zvoliť trade-off medzi prežitím a stratou.

prometheus observability sre incident-response monitoring kubernetes

Cardinality Contracts: sprav z Prometheus labelov API s budgetom

21. decembra 2025

Definuj budgety na cardinality, over ich v CI a pridaj runtime firewall, aby si zastavil explozie labelov pred produkciou.

prometheus monitoring observability metrics cardinality testing

Prometheus native histogramy v produkcii: rollout plán, budgety a failure módy

20. decembra 2025

Prometheus native histogramy vedia odpáliť pamäť, WAL aj remote_write. Návod na postupné nasadenie, budgety a konkrétne queries na verifikáciu.

prometheus observability metrics performance remote-write

Funguje v psql, nestabilne v produkcii: Ticha vrazda LISTEN/NOTIFY cez PgBouncer

18. decembra 2025

PostgreSQL LISTEN/NOTIFY funguje perfektne v lokalnom testovani ale notifikacie nahodne prestanu prichodit v produkcii. Vinik: transaction pooling ticho prideluje vase spojenie niekomu inemu.

postgresql pgbouncer debugging connection-pooling listen-notify

PostgreSQL XID wraparound: núdzový playbook pre vacuum freeze v incidente

16. decembra 2025

PostgreSQL môže prejsť do read-only pri XID wraparound. Núdzový playbook: nájsť najstaršie tabuľky, odblokovať vacuum freeze a prevencia do budúcna.

postgresql autovacuum operations reliability

Dash Contracts v Go: CI kompilator pre Grafana dashboardy a Prometheus alerty

15. decembra 2025

Vytiahni PromQL z dashboardov a rules suborov, over selektory proti /metrics a zastav CI este pred deployom.

prometheus grafana observability monitoring promql testing

Pakety prichadzaju ale aplikacia timeoutuje: rp_filter pasca v Kubernetes

12. decembra 2025

tcpdump ukazuje pakety ktore prichadzaju, ale aplikacia nic nevidi. Vinik: Linux reverse path filtering ticho zahadzuje pakety predtym nez dosiahnu iptables, sposobene asymetrickym routovanim.

kubernetes networking linux debugging rp_filter routing

Pasca hot_standby_feedback: ako opravíte repliku a pomaly zabijete primár

12. decembra 2025

hot_standby_feedback zastaví rušenie query na replike, ale vie nafúknuť primár v dňoch. Diagnostika xmin pinningu, bezpečné mitigácie a guardrails.

postgresql replication autovacuum operations

Kubernetes TLS Certifikát Rotácia: Výpadok o 3:00 Ráno

9. decembra 2025

Certifikát expiroval o 3:00, služba padla. cert-manager renewal ticho zlyhal. Ukážem monitoring, testovanie rotácie a prevenciu cert-related výpadkov.

kubernetes security tls certificates cert-manager monitoring

PostgreSQL checkpoint špičky: prečo p99 exploduje každých N minút

8. decembra 2025

Reprodukovateľný postup na diagnostiku a odstránenie checkpoint-induced latency špičiek pomocou pgbench, pg_stat_bgwriter a WAL/IO budgetu.

postgresql performance sre databases io observability

'No space left on device' s 40% voľného disku: Inode a OverlayFS Death Spiral

7. decembra 2025

df -h ukazuje 40% voľného miesta. Ale váš kontajner stále padá s ENOSPC. Vinník: vyčerpanie inodov na overlayfs vrstvách, neviditeľné pre štandardný monitoring.

kubernetes linux debugging overlayfs inodes disk containers

OpenTelemetry Collector backpressure: dropy, memory_limiter a queue ako guardrails

4. decembra 2025

OpenTelemetry Collector pri loade dropuje spany kvôli backpressure exportérov. Oprava cez memory_limiter, queue a batch tuning + verifikácia.

opentelemetry observability kubernetes reliability

Vyčerpanie Connection Poolu: Tichý Spúšťač Výpadkov

30. novembra 2025

Aplikácia visí, ale databáza vyzerá zdravo. Najčastejšie je vyčerpaný connection pool. Ukážem detekciu, rozumné dimenzovanie a prevenciu únikov spojení.

databases postgresql performance connection-pooling debugging

CSI VolumeAttachment zaseknutý: pody v ContainerCreating a drain, ktorý sa nepohne

30. novembra 2025

Pody zaseknuté v ContainerCreating často skrývajú stuck CSI VolumeAttachment. Runbook na diagnostiku, bezpečné detach, prevenciu data loss a alerty.

kubernetes storage csi operations runbook

RSS Contracts: Ako prestat zabijat Java pody v Kubernetes (OOMKilled) testovanim RSS ako API

27. novembra 2025

Cgroup RSS budgety, CI sampling a runtime headroom ti chytia JVM memory regresie skor, nez trafia produkciu.

kubernetes java jvm memory observability ci

Pod zaseknutý v Terminating: produkčný rozhodovací strom pre finalizery, volume a mŕtve nody

26. novembra 2025

Konzervatívny runbook na bezpečné odblokovanie Terminating Podov: finalizery, CSI/volume cleanup, mŕtve nody a kedy (a ako) použiť force delete.

kubernetes sre operations reliability storage incident-response

pg_waldump WAL Forenzika: Rekonštrukcia Čo Sa Stalo s Tvojimi Dátami

24. novembra 2025

Niečo zmazalo riadky z produkcie ale nikto nepriznáva že spustil DELETE. Použi pg_waldump na analýzu WAL súborov a rekonštruuj presne čo sa stalo a kedy.

postgresql debugging wal forensics data-recovery

Kubernetes graceful shutdown ako kontrakt: nula 502 počas rolloutov (HTTP + gRPC)

22. novembra 2025

Reprodukovateľný postup ako odstrániť 502/ECONNRESET pri rolloute: readiness-driven draining, preStop, SIGTERM a merateľný drain budget.

kubernetes reliability sre grpc http deployments

5000 Unacked správ a stúpa: Zastav RabbitMQ consumer meltdowny v CI

22. novembra 2025

Queue vyzerá zdravo až do deploymentu, potom messages_unacknowledged exploduje, pamäť stúpa a redelivery storms začínajú. Vinník: tvoj prefetch je príliš vysoký a nikto netestoval skutočné ack správanie.

rabbitmq debugging testing ci message-queue

Ephemeral-storage evictions v Kubernetes: logová búrka, ktorá vyhodila zdravé pody

18. novembra 2025

Pody sú evicted kvôli ephemeral-storage aj keď disk vyzerá voľný. Runbook: nodefs/imagefs, logy, kubelet GC a nastavenie budgetov + log rotácia.

kubernetes storage operations troubleshooting

Kubernetes OOM Killer: Prečo Kontajner Zomiera pri 50% Pamäte

16. novembra 2025

Kontajner má 4GB memory limit ale OOM kill pri 2GB used. Kernel buffers, page cache a cgroup accounting triky spôsobujú skoré OOMKills. Tu je celý obraz.

kubernetes linux memory oom containers debugging

Jedna partition na 99% CPU: Zastav Kafka hotspoty skôr ako dorazia do produkcie

15. novembra 2025

Všetky partitiony vyzerajú vyvážené v testovaní, potom príde produkčný traffic a jedna partition sa roztopí. Vinník: tvoj partition key má otrásnú kardinalitu a nikto si toho nevšimol.

kafka debugging testing ci partition-key

Kubernetes APF vyhladovanie: keď jeden controller zablokuje kubectl

14. novembra 2025

APF vie vyhladovať Kubernetes API: kubectl visí, controllery timeoutujú a rastú 429. Runbook na izoláciu klienta, úpravu FlowSchema a verifikáciu.

kubernetes control-plane reliability debugging

ClickHouse ReplacingMergeTree: Ilúzia Deduplikácie

13. novembra 2025

ReplacingMergeTree nededuplikuje pri SELECT. Merguje eventuálne. Vaše queries vracajú duplikáty kým neprebehne background merge. Tu je riešenie.

clickhouse databases performance analytics deduplication

Kafka rebalance búrky: prečo scale-out consumerov vie zhoršiť lag

10. novembra 2025

Kafka rebalance burky vedia zhoršiť lag pri scale-out. Runbook na max.poll, heartbeat, cooperative-sticky a config diffs, ktoré stabilizujú group.

kafka performance reliability operations

Kubernetes DNS: Latency Daň ndots:5

10. novembra 2025

Každý DNS query v K8s robí 5 neúspešných lookupov pred úspechom. ndots:5 default spôsobuje 100ms+ latenciu. Tu je ako to opraviť.

kubernetes dns networking performance coredns latency

Envoy outlier detection brownouty: keď mesh vyhodí zdravé pody

6. novembra 2025

Debug Istio/Envoy outlier detection brownoutov: prečo mesh vyhadzuje zdravé pody a rastú 503 v produkcii. Obsahuje xDS checks, bezpečné fixy a alerty.

kubernetes service-mesh istio envoy reliability

Go GOMAXPROCS v Kontajneroch: Problém Detekcie CPU

5. novembra 2025

Go vidí 64 CPU hosta ale váš kontajner má limit 2 CPU. GOMAXPROCS=64 spôsobuje nadmerný context switching a throttling. Tu je riešenie.

go golang kubernetes containers performance cpu

Envoy/Istio 503 UF/UO/UT: keď výpadok robí mesh, nie aplikácia

2. novembra 2025

Envoy/Istio vie vrátiť 503 UF/UO/UT, keď pretečie connection pool. Ako čítať flags, pozrieť proxy stats, upraviť DestinationRule a rýchlo overiť.

kubernetes istio envoy service-mesh debugging

Architektúra ako kód: ADR, C4 diagramy a quality gates v CI

31. októbra 2025

Kompletný sprievodca ako zaviesť living documentation pomocou Architecture Decision Records, C4 modelu a automatizácie v CI/CD pipeline.

architecture adr c4-model documentation devops

Cilium BPF conntrack map full: náhodné resetovania aj keď conntrack vyzerá OK

29. októbra 2025

Náhodné resetovania s Cilium? Ako sa zaplnia eBPF conntrack (CT) mapy, prečo netfilter conntrack vyzerá OK, a runbook na sizing a verifikáciu v Kubernetes.

kubernetes cilium ebpf networking troubleshooting

Python GIL a Kubernetes CPU Limity: Pasca Threadingu

27. októbra 2025

Vaša Python appka má 4 thready ale K8s dáva 1 CPU. GIL + CFS kvóta = brutálny throttling. Ukážem prečo a ako správne nastaviť workery.

python kubernetes performance cpu gil containers

Kubernetes p99 špičky bez OOM: Diagnostika cgroup v2 memory.high cez PSI

25. októbra 2025

Použite PSI a cgroup v2 memory.high na vysvetlenie p99 špičiek bez OOMKill. Kubernetes runbook s príkazmi, diffs, bezpečnými mitigáciami a alertmi.

kubernetes linux cgroup-v2 performance

S3 Intelligent-Tiering: Pasca Malých Objektov

25. októbra 2025

S3 Intelligent-Tiering šetrí peniaze pre veľké súbory ale účtuje minimum 128KB overhead. Pre milióny malých objektov ZVYŠUJE náklady. Ukážem matematiku.

aws s3 cost-optimization cloud storage

Connection Pool Sizing s Little's Law: Matematický Prístup k HikariCP a PgBouncer

22. októbra 2025

Pool size 50 lebo tak to bolo vždy? Ukážem ako použiť Little's Law na výpočet optimálnej veľkosti poolu a dokážem to load testom.

postgresql connection-pool performance hikaricp pgbouncer littles-law

Kubernetes CPU Throttling Pitva: Prečo p99 Latencia Exploduje pri 40% CPU Usage

19. októbra 2025

CPU vyzerá OK, ale tail latencia je katastrofálna. Ukážem ako korelovať CFS throttling s latency spikes a prečo odstránenie CPU limitov môže paradoxne pomôcť.

kubernetes performance cpu-throttling latency java go

Elasticsearch Hot Shard Problém: Keď Jeden Node Robí Všetku Prácu

16. októbra 2025

5 data nodov ale jeden je na 100% CPU. Nerovnomerné routing kľúče vytvárajú hot shardy. Ukážem ako detekovať skew a opraviť ho pomocou routing stratégií.

elasticsearch performance distributed-systems debugging indexing

UUIDv4 vs ULID vs TSID: Dopad na PostgreSQL B-Tree Indexy po 100M Záznamoch

14. októbra 2025

Náhodné UUID ako Primary Key spôsobujú index bloat a random I/O. Benchmark s konkrétnymi číslami - veľkosť indexu, cache hit ratio a WAL volume po 100M insertoch.

postgresql uuid ulid tsid performance indexing

JWT Revokovanie Stratégie: Keď Stateless Tokeny Potrebujú Stav

12. októbra 2025

Používateľ kompromitovaný, treba revokovať JWT okamžite. Ale JWT sú immutable. Porovnávam allowlist, denylist a krátku expiráciu s performance benchmarkmi.

security jwt authentication redis performance auth

Polia zmizli ale nič nespadlo: Zachyť Schema Evolution bugy pred produkciou

8. októbra 2025

Producer upgradol Protobuf, consumer ešte na starej verzii. Žiadne errory, žiadne warningy—len tichá strata dát v produkcii. Tvoja schema evolúcia rozbila backward compatibility a CI si toho nevšimlo.

protobuf avro schema testing ci data-loss

CI/CD pre monorepo: Rýchlosť, cache, selektívne testy a supply-chain bezpečnosť

4. októbra 2025

Kompletný blueprint pre efektívny CI/CD pipeline v monorepo - od path filters cez remote cache až po SBOM a SLSA. Praktické riešenia, nie teória.

cicd monorepo devops security kubernetes

Structured Logging Performance: Keď Sa Logger Stane Bottleneckom

28. septembra 2025

Pri 50k logov/sec JSON serializácia žerie 30% CPU. Štandardná knižnica encoding/json je pomalá. Benchmarkujem zap vs zerolog vs slog so skutočnými číslami.

go logging performance observability json benchmarks

PostgreSQL HOT Updates + FILLFACTOR: Ako Znížiť Index Bloat o 60%

23. septembra 2025

Vacuum beží úspešne, ale disk rastie a cache hit ratio klesá. Ukážem ako kvantifikovať HOT-update eligibility pomocou pgstattuple a optimalizovať fillfactor.

postgresql performance hot-updates fillfactor bloat optimization

Circuit Breaker vs Rate Limiter vs Bulkhead: Kedy Ktorý Pattern Použiť

19. septembra 2025

Tri resilience patterns, ktoré sa často zamieňajú. Ukážem presne kedy ktorý bráni cascade failures a kedy to zhoršuje so skutočnými metrikami.

resilience circuit-breaker rate-limiter bulkhead java spring-boot resilience4j

Keď Prepared Statements Spravia PostgreSQL 10× Pomalším: Generic Plan Trap

15. septembra 2025

Rovnaký query, rovnaké parametre, ale prod je pomalý a staging funguje. Ukážem ako reprodukovať generic plan problém s pgBouncer, Java/Go a ako ho fixnúť.

postgresql performance prepared-statements pgbouncer java go

Logical Replication Slot WAL Bloat: Keď Subscribery Odídu Offline

9. septembra 2025

Disk sa plní WAL súbormi. Príčina: logical replication slot consumer odišiel offline a PostgreSQL drží všetok WAL odvtedy pretože by mohol byť potrebný.

postgresql debugging replication disk wal

eBPF Off-CPU Analýza: Nájdenie Latencie Ktorú Metriky Nevidia

7. septembra 2025

CPU je na 20% ale latencia je 500ms. Štandardné profilery neukazujú nič. Appka čaká, nepočíta. Ukážem ako použiť eBPF na nájdenie na čo čaká.

ebpf performance debugging linux observability latency

PostgreSQL Autovacuum SLO Tuning: Ako nastaviť vacuum pre 200M riadkov a 5k UPSERT/s

4. septembra 2025

Autovacuum je buď ignorovaný alebo cargo-cult tunovaný. Ukážem ako ho premeniť na SLO-driven systém s konkrétnymi číslami, pg_stat metriky a reprodukovateľným testom.

postgresql performance autovacuum database slo

Java Virtual Threads vs Reactive: Kedy Zahodiť WebFlux za Project Loom

27. augusta 2025

Virtual Threads v Java 21 sľubujú jednoduchší kód ako Reactive. Benchmarkujem oba pri 10k concurrent connections a ukážem kde ktorý vyhráva.

java virtual-threads project-loom webflux reactive spring-boot performance

gRPC Deadline Propagácia: Prevencia Kaskádových Zlyhaní

23. augusta 2025

Frontend sa vzdá po 5s ale backend pracuje ďalších 30s. Bez deadline propagácie mrháte resources na odsúdené requesty. Ukážem ako to implementovať v Go.

grpc go microservices resilience performance distributed-systems

JVM Native Memory v Kubernetes: Prečo Pod Dostane OOMKilled s 50% Heap

16. augusta 2025

Heap je 50% plný ale pod dostane OOMKilled. Ukážem ako sledovať native memory (Metaspace, threads, NIO) a zabrániť container memory problémom.

java kubernetes memory jvm oomkilled native-memory performance

gRPC v Kubernetes: Prečo Service round-robin klame

11. augusta 2025

Prečo má jeden pod 90% trafficu pri gRPC. Reprodukovateľný lab, riešenia od client-side LB po service mesh, a production checklist.

grpc kubernetes load-balancing performance microservices

Linux Page Cache Thrashing v Kontajneroch: Keď Voľná Pamäť Nie Je Voľná

6. augusta 2025

Váš kontajner má 2GB voľné ale beží pomaly. Page cache sa počíta proti memory limitu. File I/O vytláča code pages. Vysvetlím s benchmarkmi a riešeniami.

linux containers kubernetes memory performance page-cache

Zero-downtime migrácie PostgreSQL: Expand/Contract, backfill a rollback stratégie

29. júla 2025

Praktický playbook pre bezpečné databázové migrácie v produkcii. Od expand/contract patternu cez online indexy až po monitoring a rollback.

postgresql database devops migrations zero-downtime

Prometheus Kardinalita Explózia: Detekcia, Prevencia a Obnova

23. júla 2025

Jeden developer pridal user_id label. Prometheus dostal OOM. Ukážem ako detekovať high-cardinality metriky skôr než zabiajú monitoring, s relabel configami na ich drop.

prometheus monitoring observability performance cardinality metrics

HTTP Keep-Alive Connection Reset: Prečo Vaše Requesty Zlyhávajú s 'Connection Reset by Peer'

16. júla 2025

Sporadické 'connection reset by peer' chyby v produkcii. Ukážem ako nesúlad keep-alive timeoutov medzi klientom a serverom toto spôsobuje a ako to opraviť.

http keep-alive kubernetes networking troubleshooting nginx go java

Redlock vs PostgreSQL Advisory Locks: Kedy Nepotrebujete Redis na Distributed Locking

13. júla 2025

Pridávate Redis len pre distributed locks? PostgreSQL advisory locks môžu stačiť. Porovnávam oba s failure scenármi a performance benchmarkami.

postgresql redis distributed-locks redlock advisory-locks java go

Protobuf evolúcia v eventoch: Prečo buf breaking nestačí

6. júla 2025

Ako bezpečne evolovať Protobuf schémy v event-driven systémoch. Pravidlá pre .proto, upcaster pattern a backward compatibility.

protobuf event-sourcing architecture grpc schema

$10k/Mesiac AWS Chyba: NAT Gateway vs VPC Endpoints

1. júla 2025

Vaše privátne subnety používajú NAT Gateway pre S3 a DynamoDB. Platíte $0.045/GB za bezplatný traffic. Ukážem ako VPC Endpoints ušetria tisíce mesačne.

aws cost-optimization networking vpc nat-gateway cloud

PostgreSQL TOAST Stratégia: Prečo Váš JSON Stĺpec Zabíja Výkon Queries

24. júna 2025

SELECT * na tabuľke s JSON je 10x pomalší ako očakávané. Ukážem ako TOAST storage funguje a kedy zmeniť stratégie pre veľké stĺpce.

postgresql toast performance json optimization storage

Tail-based sampling v OpenTelemetry: Sizing, pamäťové pády a cost model

21. júna 2025

Praktický sizing guide pre tail sampling v OpenTelemetry Collector. Od decision_wait cez memory limity až po cost-benefit analýzu.

opentelemetry observability kubernetes performance monitoring

Cache Stampede Prevencia: Probabilistická Skorá Expirácia (X-Fetch)

14. júna 2025

100 requestov zasiahne expirovanú cache súčasne. Všetkých 100 sa pýta databázy. Implementujem X-Fetch algoritmus ktorý refreshuje cache pred expiráciou bez zamykania.

caching redis performance algorithms distributed-systems stampede

PostgreSQL Replication Slot Bloat: Ako Jeden Neaktívny Slot Naplnil 500GB Disk

8. júna 2025

Disk je na 95%, WAL adresár má 400GB. Ukážem ako replication slots bránia WAL cleanup a playbook pre prevenciu a recovery.

postgresql replication wal disk-bloat logical-replication monitoring

Kubernetes conntrack Vyčerpanie: Tichý Zabijak Paketov

3. júna 2025

Náhodné DNS timeouty, dropped spojenia, služby timeout-ujú. Vaša nf_conntrack tabuľka je plná. Ukážem ako diagnostikovať, monitorovať a opraviť tento K8s networking problém.

kubernetes networking conntrack dns debugging linux

Architectural Linting: Automatizovaná ochrana proti spaghetti kódu

28. mája 2025

Ako vynútiť architektonické pravidlá v CI/CD. Dependency Cruiser pre JS/TS, ArchUnit pre Java a praktické príklady konfigurácie.

architecture ci-cd automation typescript java

Redis Memory Fragmentácia: Keď maxmemory Nestačí

22. mája 2025

Váš Redis má 4GB maxmemory ale RSS ukazuje 6GB. OOM killer zasiahne. Vysvetlím jemalloc fragmentáciu s reprodukciou a tuningom activedefrag.

redis memory performance debugging jemalloc oom

PostgreSQL Idle in Transaction: Núdzový Playbook pre Zaseknuté Spojenia

20. mája 2025

Autovacuum nemôže bežať, table bloat rastie, všetko kvôli jednému 'idle in transaction' spojeniu. Tu je detekcia a kill playbook.

postgresql idle-in-transaction vacuum bloat troubleshooting monitoring

Idempotencia API: Ako navrhnúť endpointy odolné voči retry

12. mája 2025

Kompletný návod na implementáciu idempotentných API. Od Idempotency-Key cez Redis locking až po stavový diagram spracovania.

api architecture redis reliability typescript

CoreDNS vs NodeLocal DNS Cache: Zníženie Kubernetes DNS Latencie 10x

8. mája 2025

Vaše pody robia 100 DNS queries per request. CoreDNS je bottleneck. Benchmarkujem NodeLocal DNS cache a ukážem konfiguráciu pre produkciu.

kubernetes dns coredns performance nodelocal-dns networking

Clean Code: Princípy, ktoré by mal poznať každý developer

2. mája 2025

Prehľad kľúčových princípov čistého kódu a prečo sú dôležité pre dlhodobú udržateľnosť softvérových projektov.

clean-code best-practices architektúra

Prestaňte mockovať databázu: Integračné testy v ére Testcontainers

24. apríla 2025

Prečo mocky klamú a ako Testcontainers zmení váš prístup k testovaniu. Praktické príklady, CI setup a stratégie izolácie dát.

testing testcontainers postgresql docker ci-cd

GIN Index Pending List Overflow: Rýchle Zápisy, Pomalé Vyhľadávanie

17. apríla 2025

Full-text search bol rýchly, teraz je pomalý. Príčina: GIN index pending list narástol obrovský počas bulk insertov a každé vyhľadávanie musí teraz skenovať nezoradené pending záznamy.

postgresql debugging indexes full-text-search performance

Adaptive Concurrency Limits: Prestaňte Hádať Veľkosti Thread Poolov

11. apríla 2025

Thread pool 200 lebo to hovorí Stack Overflow? Netflix algoritmus upravuje konkurenciu automaticky podľa latencie. Ukážem ako funguje s benchmarkmi.

concurrency performance java go netflix rate-limiting adaptive

Kubernetes Cross-Zone Traffic: Skrytý Náklad Ktorý Žerie Váš Cloud Bill

8. apríla 2025

Váš AWS účet má $5000/mesiac za data transfer. Polovica je cross-zone traffic v rámci clustera. Ukážem ako ho zmerať a znížiť.

kubernetes aws networking cost-optimization cross-zone cloud

Feature flags bez technického dlhu: Automatická detekcia stale flags

4. apríla 2025

End-to-end riešenie pre lifecycle management feature flags. Od runtime metrík cez statickú analýzu až po automatické removal PR.

feature-flags devops tech-debt automation ci-cd

Kubernetes rollout bez výpadku DB: Ako zastaviť PostgreSQL connection storm

1. apríla 2025

Reprodukovateľný lab na demonštráciu connection stormu pri K8s rolloutoch. PgBouncer, preStop hooks a jitter - praktické riešenia s benchmarkmi.

kubernetes postgresql pgbouncer devops reliability

Transactional Outbox: Ako vyriešiť Dual Write problém bez 2PC

27. marca 2025

Praktická implementácia Outbox patternu v Node.js/TypeScript s PostgreSQL LISTEN/NOTIFY. Race-condition case study a production-ready riešenie.

architecture postgresql typescript distributed-systems messaging

Soft Delete past: Prečo is_deleted zabíja tvoju databázu (a čo s tým)

23. marca 2025

Praktický rozbor prečo soft delete po rokoch rozbije výkon databázy. Benchmarky, partitioning riešenie a migračný checklist.

postgresql database performance architecture anti-patterns

ICU Collation Version Drift: Keď Upgrade Databázy Rozbije Tvoje Indexy

15. marca 2025

Query vracia nesprávne výsledky po upgrade OS. Príčina: ICU library verzia sa zmenila, pravidlá collation sa posunuli a indexy sú teraz zoradené nekonzistentne s novým poradím.

postgresql debugging unicode indexes icu

Java Profilovanie v Hardened Kubernetes: Keď Security Blokuje Tvoj Debugger

7. marca 2025

Nemôžeš pripojiť profiler k produkčnej JVM. seccomp blokuje perf_event_open, container dropol CAP_SYS_PTRACE a PodSecurityPolicy bráni privileged mode. Tu je ako profilovať aj tak.

java kubernetes debugging security performance

PostgreSQL Partial Index: Plánovač Ignoruje Tvoj Index

4. marca 2025

Query skenuje celú tabuľku napriek perfektnému partial indexu. Príčina: WHERE klauzula query sa presne nezhoduje s predikátom indexu, alebo štatistiky zavádzajú plánovač.

postgresql debugging performance indexes query-planning

Go cgo DNS Resolution Thread Explózia: Keď net.LookupHost Spawne Tisíce Threadov

25. februára 2025

Go aplikácia má zrazu 10,000 threadov konzumujúcich všetku pamäť. Príčina: cgo-based DNS resolution blokujúce v pomalých DNS prostrediach, obchádzajúce Go's goroutine scheduler.

golang debugging dns performance kubernetes

eBPF Run-Queue Latency: Hľadanie Off-CPU Bottlenecku

17. februára 2025

CPU využitie je nízke ale requesty sú pomalé. Skrytý vinník: čas strávený čakaním v scheduler run-queue, neviditeľný pre tradičné profilery ale viditeľný s eBPF off-CPU analýzou.

linux performance debugging ebpf scheduling

Linux ARP Cache Zastarané Záznamy: Blackhole Traffic Po Failoveri

14. februára 2025

Traffic ide na starý server po failoveri. Príčina: Linux ARP cache drží MAC adresu zlyhajúceho nodu, posiela pakety na nedosiahnuteľnú destináciu minúty.

linux networking debugging failover arp

Gossip Protocol Ghost Nodes: IP Reuse Strašiaci Váš Cluster

10. februára 2025

Nový node sa pripája ku clusteru ale je odmietaný. IP starého nodu je stále v blackliste failure detection gossip protokolu. Zombie membership záznam žije ďalej.

distributed-systems debugging kubernetes gossip networking

Kubernetes Ghost Connections: Zastarané Conntrack DNAT Záznamy

5. februára 2025

Service vracia zlé pod IP po škálovaní. Príčina: Linux conntrack drží DNAT záznamy dlhšie ako existujú pody, smeruje traffic na zmazané endpointy.

kubernetes networking debugging linux conntrack

Dvojité Účtovanie z Idempotency Keys: Pasca Replica Lag

29. januára 2025

Perfektná idempotency logika, ale zákazníci sú stále účtovaní dvakrát. Príčina: kontrola idempotency keys voči read replice ktorá je sekundy za primary počas špičiek.

distributed-systems databases debugging postgresql payments

PostgreSQL Read Replica Konflikty: Prečo sa vaše dotazy rušia

28. januára 2025

Dotazy na read replikách zlyhávajú s 'canceling statement due to conflict with recovery'. Riešenie závisí od toho, ktorý z 5 typov konfliktov máte - tu je návod ako diagnostikovať a vyriešiť každý z nich.

postgresql database replication debugging performance

Redis Cluster Migrácia Slotov: Dočasná Explózia Pamäte

27. januára 2025

Redis nody OOMKilled počas rebalancingu clustra. Príčina: migrácia slotov kopíruje kľúče do cieľa pred zmazaním zo zdroja, dočasne zdvojnásobuje využitie pamäte.

redis debugging clustering memory kubernetes

Split-Brain z Posunu Hodín Dozadu: Wall Time v Lease-Based Systémoch

22. januára 2025

Dva nody súčasne veria že držia leader lease. Príčina: malá NTP korekcia hodín dozadu kombinovaná s kódom ktorý mieša wall-clock čas s duration-based timeoutmi.

distributed-systems debugging time leader-election ntp

Java OOMKilled So Stabilným Heapom: Native Memory, Direct Buffers a glibc Arenas

20. januára 2025

Heap metriky vyzerajú dobre, GC je spokojný, ale kontajner stále umiera. Vinník: native memory z direct buffers, JNI a glibc memory allocator fragmentácia.

java kubernetes memory debugging jvm oom

Go p99 Latency Špičky: Vnorené context.WithTimeout Timer Búrky

15. januára 2025

Periodické latency špičky ktoré vyzerajú ako network jitter. Skutočná príčina: vnorené timeouty vytvárajú tisíce timerov ktoré zaťažujú Go runtime timer heap a spúšťajú GC scanning.

golang performance debugging context gc latency

PostgreSQL Serialization Failures: Viac ako len 'Retry'

15. januára 2025

Dostávate 'could not serialize access due to concurrent update'? Riešenie nie je len retry logika - je to pochopenie kedy použiť ktorú isolation level a ako znížiť frekvenciu konfliktov.

postgresql database concurrency transactions debugging

gRPC Keepalive Nezhoda: Transport Closing Po Idle

13. januára 2025

gRPC spojenia sa náhodne zatvárajú s 'transport is closing'. Príčina: klient a server keepalive nastavenia sa nezhodujú, server terminuje idle spojenia.

grpc debugging networking golang microservices

Ghost Pod: Prečo váš Service stále posiela traffic na mŕtve endpointy

5. januára 2025

Náhodné ECONNRESET na niektorých nodoch. Endpointy vyzerajú správne. Vinník: conntrack NAT záznamy držia dlhodobé spojenia pripnuté k podom, ktoré už neexistujú.

kubernetes networking conntrack debugging kube-proxy iptables

PostgreSQL OOM by Design: work_mem × Parallel Workers × Plan Nodes

28. decembra 2024

work_mem vyzerá malé na 256MB, ale parallel hash join so 4 workers naprieč 3 plan nodes používa 3GB. Tu je ako zabrániť PostgreSQL legitímne OOMnúť váš kontajner.

postgresql performance memory debugging parallel-query oom

JVM Metaspace OOM v Kubernetes: Prečo MaxMetaspaceSize Nestačí

23. decembra 2024

Pod OOMKilled napriek nastavenému MaxMetaspaceSize. Príčina: Metaspace rastie mimo heap, container memory limit nepočíta s tým, a triedy sa neuvoľňujú.

java kubernetes debugging memory jvm

Index Ktorý Zabil Write Performance: Strata PostgreSQL HOT Updates

19. decembra 2024

Pridanie indexu pre výkon spôsobilo 10x pomalšie zápisy. Kontra-intuitívna príčina: nový index rozbil HOT updaty, meniaci lacné in-place updates na drahé full-row rewrites s masívnym bloatom.

postgresql performance indexing debugging vacuum hot-updates

PostgreSQL 'cached plan must not change result type' Počas Zero-Downtime Migrácií

11. decembra 2024

Rolling deploy zlyháva s cached plan chybami po ALTER TABLE. Príčina: server-side prepared statements cachujú query plány ktoré sa rozbijú pri zmene schémy.

postgresql debugging migrations jdbc zero-downtime

etcd Watch Replay Búrky: Keď Obrovské ConfigMapy Zabíjajú Control Plane

5. decembra 2024

Apiserver je 'náhodne pomalý'. Príčina: veľké, často aktualizované ConfigMapy spúšťajú watch compaction, čo spôsobuje simultánny relist tisícov kontrolérov.

kubernetes etcd control-plane debugging configmap performance

etcd Quota Alarm: Keď Váš Kubernetes Cluster Prejde do Read-Only

27. novembra 2024

Cluster prestane prijímať zápisy, pody sa nedajú naplánovať. Príčina: etcd dosiahol storage quota lebo compaction nebežal, história sa nahromadila nad limity.

kubernetes etcd debugging storage ops

Kubernetes Headless Service DNS: Zastarané Záznamy Po Zmazaní Podu

22. novembra 2024

Requesty idú na neexistujúce pody. Príčina: headless service DNS záznamy pretrvávajú v klient DNS cache po zmazaní podov, pred propagáciou endpoints update.

kubernetes dns debugging networking services

Traffic Ide na Mŕtve Pody: Conntrack Zastaralé NAT Mapovanie

14. novembra 2024

Deploy spôsobuje 503 presne 2 minúty. Problém: conntrack drží NAT mapovanie na staré pod IP aj po tom čo Kubernetes odstráni endpointy.

kubernetes networking conntrack debugging deployment nat

Vyčerpanie Ephemeral Portov: Node Ktorý 'Pokazí'

11. novembra 2024

Jeden Kubernetes node začne zlyhávať pripojenia k externým službám zatiaľ čo pody vyzerajú zdravé. Skrytá príčina: sidecar proxy vyčerpávajú ephemeral porty krátkodobými spojeniami.

kubernetes networking linux debugging service-mesh nat

PMTU Blackholes: Keď Iba Veľké Odpovede Visia

7. novembra 2024

Malé API odpovede fungujú, veľké visia navždy. Príčina: ICMP 'Fragmentation Needed' správy filtrované firewallmi, rozbíjajú Path MTU Discovery v overlay sieťach.

kubernetes networking mtu debugging overlay-networks tcp

kube-proxy Mikro-Výpadky: Problém xtables Lock Contencie

4. novembra 2024

Náhodné 1-3 sekundové výpadky spojení počas deploymentov. CPU vyzerá v poriadku, pamäť stabilná. Skrytá príčina: iptables-restore drží xtables lock počas endpoint churnu.

kubernetes networking kube-proxy iptables debugging performance

TCP TIME_WAIT Vyčerpanie Portov: Keď Connection Pooling Nestačí

28. októbra 2024

Služba sa nemôže pripojiť k databáze - 'cannot assign requested address'. Príčina: ephemeral porty vyčerpané tisíckami socketov v TIME_WAIT stave.

networking debugging linux tcp performance

VXLAN Náhodné Straty Paketov: Pasca Checksum Offload

21. októbra 2024

gRPC volania medzi nodmi náhodne zlyhávajú ale lokálna komunikácia funguje. Vinník: TX checksum offload poškodzuje VXLAN hlavičky na špecifických NIC driveroch.

kubernetes networking vxlan debugging nic overlay-networks