Výpadek Crowdstrike nebyl poslední, připravme se na další selhání

Výpadek Crowdstrike nebyl poslední, připravme se na další selhání
31 / 7 / 2024 Ivo Procházka

Asi od softwarové chyby Y2K (Year 2000) nebo přesněji lenosti programátorů, o které se tvrdilo, že při přechodu z roku 1999 na 2000 způsobí závažné problémy s operačním systémem Microsoft Windows, žádná další softwarová závada nevyvolala takové pozdvižení jako nedávné selhání Microsoft Windows, způsobené dodavatelem bezpečnostního software Crowdstrike. Jak si příště dát pozor?

Microsoft používá technologii od Crowdstrike k zabezpečení koncových bodů, tj. počítačů, které používají koncoví uživatelé, a na kterých běží programy Microsoft.

 

Původně mytizovaný Y2K nakonec moc problémů nezpůsobil, zato softwarová (SW) chyba Crowdstrike ano. Kvůli Crowdstrike se tisíce uživatelů služeb a aplikací Microsoft 365 pracujících v letectví, ve financích, ve zdravotnictví a v mnohých dalších oborech nedostali do svých počítačů. V pátek 19. července Microsoft oficiálně diplomatickým prohlášením „We're investigating an issue impacting users ability to access various Microsoft 365 apps and services,“ přiznal, že se děje něco závažného.

 

Tentýž den odpoledne oznámili na blogu, že problém byl identifikován a že Crowdstrike spolupracuje s jednotlivými klienty na jeho odstranění. V některých případech stačilo restartovat počítač, v jiných však musel vyrazit technik, protože se uživatelům Microsoft objevila velmi dobře známá modrá obrazovka signalizující závažné problémy. Crowdstrike zabezpečuje počítače na úrovni podnikových sítí, proto byly zasaženy jen počítače firemních klientů.

 

Ve svých produktech a službách Microsoft nepoužívá výhradně své technologie. Kde to pro společnost nedává smysl, nabízí a do svých služeb a produktů integruje SW třetích stran, jako tomu je v případě bezpečnostní ochrany koncových počítačů. Zde spoléhá právě na technologie XDR (Extended Detection and Response) od Crowdstrike, které holisticky chrání koncové počítače před různými útoky, ať jsou způsobené malwarem nebo ne.

 

Chyba Crowdstrike je v podstatě banální a stává se běžně výrobcům SW a firmám, které SW používají. SW se vyvíjí, přichází nové verze a aktualizace, které je třeba řádně otestovat, než je pustíte do živého provozu. Pokud je řádně neotestujete, způsobí tu větší, tu menší obtíže, o kterých se většinou nemluví a nepíše. Jestliže však shodíte nejpoužívanější operační systém od Microsoft, dostanete se zaručeně na přední stránky světových médií. Crowdstrike se to povedlo tím, že expedoval Microsoftu a jeho firemním zákazníkům špatnou aktualizaci, ve které byla chyba, která nebyla odhalena testovacím SW, a kvůli které koncové počítače zkolabovaly.

 

A tak se na sociálních sítích předháněly různé společnosti se zprávami, jak chyba ovlivnila jejich podnikání a zákazníky. Letecké společnosti povětšinou hlásily zpoždění způsobené problémy s odbavením (nemohly tisknout letenky, a tak je alespoň vyplňovaly ručně, problémy s check-in apod.). Na letištích se tvořily fronty a společnosti nestíhaly zákazníky odbavit včas. Celosvětově pak prý bylo zpožděno více než 40 000 letů.

 

Některé mediální společnosti jako SKY News nebo CBBC přestaly na chvíli vysílat a problémy hlásily i telekomunikační firmy jako Telstra v Austrálii. Z Británie a Německa přišly zprávy o výpadcích ve zdravotnictví nebo u provozovatelů vlaků. V České republice se do potíží dostalo například Letiště Praha. Nemocnice v Rokycanech hlásila rovněž potíže, ale včasným zásahem IT pracovníků se podařilo problém vyřešit bez větších problémů.

 

Je z kauzy nějaké poučení? I když Crowdstrike slibuje, že se podobný problém nebude opakovat, realita je jiná. Chyby se při vývoji a testování SW stávaly a budou stávat. Jsou zaviněné lidským selháním nebo chybou jiného SW, který při vývoji a testování používáte, a kterou opět neodhalíte. Je v podstatě nemožné slibovat, že se podobné incidenty nebudou opakovat.

 

Každý podnik, který SW používá, by měl mít proto připravený plán, co dělat v případě výpadků různých IT systémů. Tak, aby minimalizoval negativní dopad na svoji činnost. Takový plán by podnik měl i pravidelně testovat, aby zaměstnanci přesně věděli, jak si v případě výpadku IT systému poradit.

 

Ivo Procházka, odborník na digitální transformaci