Major incident: Storage cluster outage

Vi vill börja med att be om ursäkt för den störning som uppstod. Tack för ert tålamod och ert fortsatta förtroende.

English version coming shortly.

Sammanfattning

En ovanlig programvarubugg i vårt lagringssystem aktiverade en automatisk skyddsfunktion som tillfälligt satte systemet i skrivskyddat läge för att förhindra risk för datakorruption. Detta pausade normal drift och ledde till en större störning under delar av eftermiddagen.

Tack vare att vår lagringslösning är byggd med flera lager av redundans fanns ingen risk för dataförlust. All kunddata förblev säker och ingen information gick förlorad.

Säkerhet

Händelsen var inte resultatet av en attack eller säkerhetsincident
Ingen obehörig åtkomst eller exponering av data skedde
Våra loggar och övervakning visar inga tecken på skadlig aktivitet

Omfattning

De flesta virtuella servrar påverkades. Vår containerplattform (Kubernetes), DNS samt servrar med lokala diskar fortsatte att fungera som vanligt.

Återställning

Programvarubuggen identifierades och kunde avhjälpas under incidenten.

När systemet var återställt genomförde vi noggranna kontroller och gradvisa omstarter för att säkerställa en trygg återgång till normal drift.

Vissa virtuella servrar krävde extra åtgärder för att komma igång efter avbrottet.

Ingen data gick förlorad och ingen information var hotad. Dataintegriteten verifierades innan tjänsterna återupptogs.

Rotorsak

Rotorsak: En ovanlig programvarubugg i lagringssystemet aktiverade en inbyggd skyddsfunktion som satte plattformen i skrivskyddat läge för att säkerställa att ingen data kunde skadas

Ej orsakat av: Underhåll, mänskliga fel eller säkerhetsincident

Förebyggande åtgärder

Utökad övervakning och larm kring lagringssystemets hälsosignaler - Pågår
Separering av kontrollplanet från produktionslagringen för snabbare responstid vid liknande incidenter - Klart 29/8
Lansering av vår statussida för tydliga och snabba uppdateringar
Buggen som orsakade incidenten är permanent fixad

Tidslinje (CEST)

~11:30 - Incidenten upptäcktes. Flera virtuella servrar rapporterade I/O-problem mot lagringen och blev otillgängliga
~11:40 - Utredning visade att lagringssystemet hade gått över i skrivskyddat läge
~11:45 - Vi kontaktade leverantören av lagringssystemet och började arbeta för att återfå stabil åtkomst
~12:15 - Alternativ åtkomst till plattformen sattes upp för att kunna påbörja återställningsarbetet
~12:30 - Återställningsåtgärder inleddes
~13:00 - Buggfix installerad. Kontroller av diskar påbörjades, och systemen förbereddes för säker omstart
~14:00 - De flesta virtuella servrar var åter online. Vissa behövde extra åtgärder på grund av startproblem
~15:30 - Återstående servrar startas efter ytterligare kontroller och verifiering
Sen eftermiddag och kväll - Slutlig verifiering och extrakontroll.

Om du har frågor eller vill prata med oss om vårt arbete med driftsäkerhet, hör gärna av dig. Vi uppskattar ert förtroende och fortsätter arbeta för att förhindra liknande incidenter.

September 5, 2025 · 04:29 -11

Update

All critical virtual servers are started and up

September 5, 2025 · 02:30 -11

Update

Majority of virtual servers are up

August 29, 2025 · 01:00 -11

Update

Problem is identified and we are working on resolving and restoring services

August 28, 2025 · 23:30 -11

Issue

We are investigating I/O errors on all virtual servers.