Storage cluster outage
Updates
Vi vill börja med att be om ursäkt för den störning som uppstod. Tack för ert tålamod och ert fortsatta förtroende.
English version coming shortly.
Sammanfattning
En ovanlig programvarubugg i vårt lagringssystem aktiverade en automatisk skyddsfunktion som tillfälligt satte systemet i skrivskyddat läge för att förhindra risk för datakorruption. Detta pausade normal drift och ledde till en större störning under delar av eftermiddagen.
Tack vare att vår lagringslösning är byggd med flera lager av redundans fanns ingen risk för dataförlust. All kunddata förblev säker och ingen information gick förlorad.
Säkerhet
- Händelsen var inte resultatet av en attack eller säkerhetsincident
- Ingen obehörig åtkomst eller exponering av data skedde
- Våra loggar och övervakning visar inga tecken på skadlig aktivitet
Omfattning
De flesta virtuella servrar påverkades. Vår containerplattform (Kubernetes), DNS samt servrar med lokala diskar fortsatte att fungera som vanligt.
Återställning
Programvarubuggen identifierades och kunde avhjälpas under incidenten.
När systemet var återställt genomförde vi noggranna kontroller och gradvisa omstarter för att säkerställa en trygg återgång till normal drift.
Vissa virtuella servrar krävde extra åtgärder för att komma igång efter avbrottet.
Ingen data gick förlorad och ingen information var hotad. Dataintegriteten verifierades innan tjänsterna återupptogs.
Rotorsak
Rotorsak: En ovanlig programvarubugg i lagringssystemet aktiverade en inbyggd skyddsfunktion som satte plattformen i skrivskyddat läge för att säkerställa att ingen data kunde skadas
Ej orsakat av: Underhåll, mänskliga fel eller säkerhetsincident
Förebyggande åtgärder
- Utökad övervakning och larm kring lagringssystemets hälsosignaler - Pågår
- Separering av kontrollplanet från produktionslagringen för snabbare responstid vid liknande incidenter - Klart 29/8
- Lansering av vår statussida för tydliga och snabba uppdateringar
- Buggen som orsakade incidenten är permanent fixad
Tidslinje (CEST)
- ~11:30 - Incidenten upptäcktes. Flera virtuella servrar rapporterade I/O-problem mot lagringen och blev otillgängliga
- ~11:40 - Utredning visade att lagringssystemet hade gått över i skrivskyddat läge
- ~11:45 - Vi kontaktade leverantören av lagringssystemet och började arbeta för att återfå stabil åtkomst
- ~12:15 - Alternativ åtkomst till plattformen sattes upp för att kunna påbörja återställningsarbetet
- ~12:30 - Återställningsåtgärder inleddes
- ~13:00 - Buggfix installerad. Kontroller av diskar påbörjades, och systemen förbereddes för säker omstart
- ~14:00 - De flesta virtuella servrar var åter online. Vissa behövde extra åtgärder på grund av startproblem
- ~15:30 - Återstående servrar startas efter ytterligare kontroller och verifiering
- Sen eftermiddag och kväll - Slutlig verifiering och extrakontroll.
Om du har frågor eller vill prata med oss om vårt arbete med driftsäkerhet, hör gärna av dig. Vi uppskattar ert förtroende och fortsätter arbeta för att förhindra liknande incidenter.
Problem is identified and we are working on resolving and restoring services
← Back
Rocketship Status