OVH Cloud: il colosso dell’informatica mondiale con i piedi di argilla

OVH Cloud – Sin dalle prime luci dell’alba del 10 marzo un vero e proprio mercoledì nero si è abbattuto su 3,6 milioni di gestori di siti web in tutto il mondo. Anche il nostro Web Magazine Ofcs.Report è stato investito dalle conseguenze di questo evento, e il sito è andato temporaneamente offline per 10 giorni.

Le prime agenzie di stampa riferiscono di uno spettacolare incendio al datacenter OVH Cloud di Strasburgo che ha visto impegnati per tutta la notte i Vigili del Fuoco francesi nel tentativo – riuscito – di spegnere le fiamme dopo che le stesse hanno distrutto completamente una buona parte degli edifici e delle sale informatiche in cui risiedevano i server che mantenevano attivi i milioni di siti web di clienti (privati e pubblici) della notissima webfarm.

Secondo un rapporto dei “Sapeurs Pompiers” dello SDIS du Bas-Rhin, l’incendio si è sviluppato intorno alle 00:47 in uno (SBG2) dei quattro datacenter OVH Cloud, insediati nella zona industriale di Port du Rhin, a est della località alsaziana.

L’evento ha mobilitato un ingente spiegamento di forze con almeno 115 operatori e 44 macchine. Sono state impiegate complessivamente sei manichette antincendio, due scale, un drone ed una motopompa a bordo di un’imbarcazione, che si è accostata sulla sponda ovest del Reno per garantire sufficiente e costante approvvigionamento idrico alle autopompe. All’operazione hanno partecipato anche vigili del fuoco tedeschi, intervenuti in rinforzo alle unità dei pompieri francesi. L’incendio è stato contenuto dopo sei ore di intervento e non sono state segnalate delle vittime.

OVHCloud in fiamme

Fonte: Sapeurs Pompiers – SDIS du Bas-Rhin

Commentando a caldo le primissime notizie ed immagini comparse sui media, in un rapido scambio di opinioni con gli esperti, lo scenario che si è presentato ai primi operatori giunti sul posto è stato certamente quello di un incendio generalizzato su gran parte della struttura che ospitava i datacenter di OVH.

Dalle immagini è possibile notare come l’incendio si sia propagato in modo rapido, favorito evidentemente sia dai materiali da costruzione (pavimento compreso), sia dalle caratteristiche costruttive dell’insediamento, visto lo sviluppo verticale dei locali dedicati ai server quale condizione molto favorevole alla fisica e chimica dell’incendio. La struttura fra l’altro era anche ventilata per ovvie ragioni di funzionamento degli stessi server in condizioni di normale esercizio.

I prodotti dell’incendio (quali fumo e calore) sono stati notevoli come in tutti i casi in cui sono coinvolte materie plastiche e simili. Analizzando le prime immagini, sembra che l’origine dell’innesco (di probabile natura elettrica) si sia verificata nell’area ala est (lato fiume Reno); infatti le immagini restituiscono un incendio completamente sviluppato in quel punto e poi, ma sempre in un tempo relativamente breve, si è propagato in zona prossima e/o limitrofa.

OVHCloud incendio spento

Fonte: Sapeurs Pompiers – SDIS du Bas-Rhin

La struttura sembrerebbe non predisposta con compartimenti antincendio ben definiti; questo ha evidentemente favorito il propagarsi delle fiamme in più locali. Non aveva probabilmente sufficienti o ben dimensionati impianti di rilevazione e spegnimento automatica o comunque il loro effetto è apparso vanificato dalla violenza del fenomeno.

Inoltre, non si comprende dalle prime notizie se l’insediamento fosse costantemente presidiato.

Il complesso sembrerebbe essere in una zona “Seveso”, seppur il datacenter non fosse così classificato in armonia alla vigente normativa in materia (Seveso III).

Lo scenario non è stato affatto facile per i VV.F. ma la cosa importante è che non ci siano state vittime o persone ferite ed intossicate. Tuttavia, il lavoro degli operatori è stato eccezionale, difficile fare di più. Hanno messo in atto ogni opportuna procedura, assicurando acqua e monitorando l’atmosfera sotto l’aspetto della contaminazione dell’aria.

Ma che cosa è un datacenter e quali sono le sue caratteristiche?

Per far comprendere meglio il contesto in cui ci si trova ed il senso dell’articolo, è utile provare a definire (Wikipedia docet) che cosa è un datacenter.

Interni del Datacenter OVHCloud

Fonte: ovhcloud.com

Un datacenter è un edificio, uno spazio dedicato all’interno di un edificio o un gruppo di edifici, utilizzato per ospitare sistemi informatici e componenti associate, come i server, storage, gruppi di continuità, e tutte le apparecchiature che consentono di governare i processi, le comunicazioni così come i servizi che supportano qualsiasi attività aziendale. Con l’evoluzione della tecnologia, oggi, quando si parla di datacenter, spesso non si pensa più a un luogo fisico, perché il datacenter è ormai per definizione di tipo ibrido, composto cioè da ambienti in house, cloud privati e cloud pubblici forniti da differenti provider (gestori di servizi internet – ISP, Internet Service Provider).

Considerato che i datacenter rivestono un’importanza fondamentale per la continuità aziendale, generalmente includono componenti ridondanti, o di backup, nelle reti di alimentazione, nelle reti di comunicazione dati, nello storage, nei servizi critici (es. condizionamento ad alta precisione), nei dispositivi di sicurezza fisica e ambientale (impianti antincendio, ecc) e vari altri dispositivi di sicurezza.

Ridondanza è un termine che mi fa tornare indietro nel tempo, quando un mio ex-collega anziano per spiegarlo in maniera semplicistica mi diceva ”… prova a pensare alle ruote gemellate/accoppiate di un automezzo pesante …”. Un altro termine spesso utilizzato in questo contesto è resilienza. In breve, la resilienza di un sistema informatico è la sua capacità di garantire la continuità dei servizi erogati.

Progettare un datacenter performante, dotato di strutture ben dimensionate e con livelli elevati di sicurezza, affidabilità ed efficienza nella erogazione dei servizi, non è evidentemente un compito semplice. È la ANSI/TIA 942-B-2017 la normativa che valuta la resilienza di un datacenter. La capacità di evitare interruzioni dei servizi, anche in presenza di guasti gravi (fault-tolerance), dipende da una serie di accorgimenti progettuali e realizzativi che interessano tutti gli aspetti del datacenter: scelta del sito, aspetti architettonici, sicurezza fisica, sistemi antincendio, impianto elettrico, impianto meccanico e reti dati.

Il sistema di distribuzione elettrica di un datacenter è generalmente costituito da un trasformatore, un generatore di backup, uno switch, un quadro elettrico di distribuzione, un gruppo di continuità e un’unità di distribuzione dell’alimentazione (PDU). Questo gruppo di dispositivi (cluster) alimenta a sua volta una serie di circuiti collegati in modo multiplo a ciascun armadio IT, tramite un cablaggio conservato in canaline rigide o flessibili situate sotto il pavimento flottante o aereo oppure nel controsoffitto.

Infrastruttura tipica di un datacenter - Welcome Italia

Fonte: Vianova by Welcome Italia

Nella tipica infrastruttura elettrica di un datacenter con un medio grado di affidabilità, ridondanza e resilienza sono garantite da due linee di alimentazione (linea A e linea B) separate e indipendenti, l’una in soccorso dell’altra. Solitamente l’energia elettrica necessaria al funzionamento del datacenter arriva dalla rete pubblica al punto di consegna, tipicamente in media tensione (15.000 V), la quale a seguire, viene smistata dal quadro elettrico di media ai trasformatori in resina delle cabine elettriche aziendali, dove viene poi trasformata in bassa tensione per essere infine incanalata, attraverso i quadri elettrici di distribuzione, fino alle “ciabatte” (PDU) collocate a bordo degli armadi (rack) in cui sono installati i server. A garantire la continuità di funzionamento vi sono i sistemi detti UPS (Uninterruptible Power Supply), i quali per il tramite delle batterie di supporto, al mancare dell’energia elettrica pubblica, assumono il fabbisogno del datacenter il tempo strettamente necessario all’avviamento automatico dei motogeneratori a gasolio che erogano l’energia utile per il sostentamento energetico dei server e dei servizi critici (condizionamento, ecc). Naturalmente, se dovesse verificarsi una qualsivoglia interruzione o malfunzionamento di uno o più dispositivi del ramo elettrico principale – ramo A -, il fabbisogno di alimentazione verrà garantito dal ramo B che si attiva in soccorso al primo.

Da quanto abbiamo visto, i datacenter, per definizione, sono quindi delle installazioni “energivore”, ovvero consumano una grande quantità di energia elettrica per poter funzionare h24. Per provare di rappresentare la portata dell’elettricità impiegata in questi particolari insediamenti, basti pensare che un datacenter di medie proporzioni utilizza talvolta la stessa quantità di energia usata da una piccola comunità (o paese), siamo quindi nell’ordine dei MegaWatt.

Chi è OVH Cloud?

Dal loro sito web si legge “… Siamo un fornitore di servizi cloud che offre server dedicati, a oltre 1,4 milioni di clienti in tutto il mondo. Siamo stati innovatori nella progettazione e nella gestione dei datacenter da quasi due decenni …”, “… manterremo i tuoi server e garantiremo alta disponibilità, prestazioni e connettività in modo che tu possa concentrarti solo sul tuo core business …”.

OVH nasce ufficialmente nel 1999 da un sogno del suo fondatore, Octave Klaba (l’attuale presidente) che, prendendo in prestito dai suoi familiari e amici 25.000 franchi, avvia da solo la sua prima attività. Oggi OVH vanta 27 datacenter, una presenza in 17 paesi, con oltre 1.000 collaboratori, in continuo aumento e scelti fra i migliori sul campo. OVH, dopo aver fondato filiali in Europa e in Africa, approda nel 2011 nel continente americano costruendo il datacenter BHS a Sud di Montreal, che, con una capacità di 360.000 server, è fra i datacenter più grandi al mondo.

Come è potuto accadere un incidente di questa portata?

Incidenti a Datacenter tra i più recenti

Fonte: Ridondanza e resilienza – Slideshare.com

Di incidenti a datacenter, che hanno compromesso il regolare funzionamento e la disponibilità dei servizi erogati, ne sono accaduti diversi in passato e possono essere rappresentati in breve nella figura riportata di seguito.

Come noto, la principale causa degli incendi nei datacenter è dovuta ad un malfunzionamento elettrico, motivo per cui, data anche l’ingente quantità di energia utilizzata, è assolutamente importante che tutti gli aspetti progettuali, così come quelli di manutenzione, oltre quelli di prevenzione e sicurezza, debbano essere rigorosamente rispettati da tutto il personale tecnico (e non) che a vario titolo “frequenta” queste installazioni.

Dagli ultimi aggiornamenti del fondatore, Octave Klaba, si viene a sapere che la causa scatenante dell’incendio è stata identificata. Ci sono buone probabilità che a scatenare l’incendio sia stato il malfunzionamento di un gruppo di continuità elettrico (UPS), il quale pare fosse stato sottoposto a manutenzione straordinaria con sostituzione di alcune componenti, proprio nella giornata del 9 marzo. Nello specifico sono stati gli UPS 7 e UPS 8 a prendere fuoco e da qui l’incendio si è sviluppato alle sale adiacenti e di conseguenza al resto dell’insediamento.

Come è possibile che il presidio fisso ed i sistemi automatici, se presenti, non sono stati in grado di rilevare ciò che stava accadendo ponendovi rimedio? Inoltre, perché i sistemi di spegnimento automatici, se presenti, non sono stati in grado di far fronte all’incendio nelle sue prime fasi di sviluppo?

Tipicamente installazioni così importanti come OVH, garantiscono un presidio tecnico e un corpo di vigilanza h24, così da poter intervenire immediatamente senza ritardi per segnalare e gestire le cause di un possibile incidente. Inoltre le sale informatiche, oltre ad essere adeguatamente compartimentate agli effetti dell’incendio, sono anche protette da sistemi di rivelazione e allarme e spegnimento automatici (a gas inerte o altri tipi di estinguente) che si attivano con immediatezza già nelle prime fasi dell’innesco. Nello specifico il gas inerte (es. argon o altro) agisce per saturazione dell’ambiente sottraendo l’ossigeno dall’aria così da impedire lo sviluppo delle fiamme per soffocamento.

A questo si aggiunge il fatto che il datacenter denominato SBG2, fosse già abbastanza datato – costruito nel 2011 – e nonostante si stesse pensando di rimpiazzare tutte le macchine con server più moderni e sicuri, il processo di sostituzione non era ancora terminato (sono state installate 2000 macchine e ne mancavano ancora altre 1000).

Anche questo aspetto è abbastanza insolito per una webfarm importante come OVH. Tipicamente datacenter di queste dimensioni si dotano di una policy che prevede la sostituzione delle macchine dopo 3 o 5 anni, allo scadere naturale del loro contratto di manutenzione. Macchine vetuste potrebbero anche essere meno performanti dal punto di vista della sicurezza.

Le conseguenze dell’evento sono state molto impattanti per i clienti di tutto il mondo. Molti siti web non erano più disponibili già dalle prime ore del 10 marzo.

Tra questi si enumerano: il sito del governo data.gouv.fr, l’aeroporto di Strasburgo, alcune Università, le cittadine di Colmar, Vichy (Allier), Bourg-Saint-Andéol (Ardèche), Cherbourg (Manche), Bruay-la-Buissière (Pas-de-Calais), il centro George Pompidou di Parigi (Beaubourg), la rete di trasporto pubblico di Nancy, l’Unione Popolare Repubblicana (UPR) – il partito politico di François Asselineau, il media The Front Populaire media – lanciato da Michel Onfray e Stéphane Simon, e tantissimi altri.

Anche molti siti web tedeschi, spagnoli, polacchi e turchi sono stati interessati dal crash di OVH.

Molti anche i portali italiani coinvolti nel ’blackout informatico’, tra cui i Comuni di Pavia, Trapani, Cattolica, San Giuliano Terme, ecc. oltre a numerose realtà private di varie dimensioni, come la casa editrice Red Star Press, il magazine Fashion Time, la squadra di basket Dolomiti Energia Trento, ecc. e lo stesso Web Magazine Ofcs.Report.

Possibile che OVH non avesse previsto l’opzione di Disaster Recovery e backup dei dati per tutti i siti web e clienti coinvolti?

Ed è questa la lezione che si apprende dalla vicenda OVH. La web farm non aveva evidentemente un recovery plan per tutti i clienti, che prevedesse una copia dei dati su altri server delocalizzati dal luogo dell’incidente, e se anche questo fosse stato previsto, probabilmente doveva essere un servizio a pagamento extra-contratto.

Per prevenire situazioni simili occorre sempre mettere sul piatto della bilancia l’adeguatezza dei livelli di servizio stabiliti in sede contrattuale. In ogni caso è sempre consigliabile prevedere un backup lato cliente del proprio database, con una periodicità che può variare a seconda dei casi, così da ritornare online nel più breve tempo possibile.

La maggior parte dei clienti di OVH che hanno subito questo importante “scossone” stanno comunque valutando le azioni legali da intentarsi contro il colosso informatico francese.

Le ragioni si fondano, oltre al diritto di richiedere l’immediato ripristino dell’operatività, anche sulla perdita di business che molte aziende hanno subito, che per alcuni ha certamente procurato perdite nell’ordine di decine di migliaia di euro. Inoltre, ad essere lesa è anche l’immagine societaria, senza nemmeno trascurare la perdita di ricavi provenienti dalle campagne pubblicitarie (vedi banner).

Una considerazione particolare va fatta anche dal punto di vista della privacy, in relazione alla possibile perdita di dati, che porterebbe OVH e il titolare del dato ad una violazione del GDPR (General Data Protection Regulation), e la conseguente comminazione delle sanzioni previste.

Considerando poi che un’azione legale potrebbe non essere così scontata, probabilmente la formula con cui approcciare OVH va vista nell’ambito dell’azione comune – “Class Action” – così da poter intanto accertare tutte le possibili implicazioni legate sia al contratto che all’effettivo ammontare del danno subito e poter formulare eventualmente una richiesta di risarcimento dei danni ben definita.

OVH chiaramente non esce indenne da questo evento disastroso e forse andrebbe anche rivisitato con serietà e risolutezza, nelle dovute sedi, il caso italiano dell’assenza di un cloud nazionale che sta diventando sempre più prioritario ed una vera necessità.

ofcs.it