Cluster e sventure

Ieri Sabato 27 Gennaio 2007 alle ore 08:30 arrivo in ufficio e apprendo che l’intervento durante la notte per ripristinare dei problemi a un server in cluster erano andati bene e tutto era rimasto perfettamente funzionante.
Pochi istanti dopo scopro che il server web con piattaforma Windows non era più raggiungibile. A quel punto decido di andare in sala server, attacco il monitor e scopro che la macchina si è praticamente congelata. Temo subito il peggio, provo a riavviarla una dozzina di volte ma nulla da fare. Sembra essersi guastata realmente. Porto il ferro in laboratorio, lo apro e scopro che la MB non alimenta più i vari componenti tra cui il BIOS.
Chiamo il collega En3pY che non tarda ad arrivare.
Appena arrivato prendiamo i dischi dalla macchina, scendiamo in sala server, prendiamo la nostra macchina exchange, la smontiamo e iniziamo la replica su VMWare ESX i 3.5. Mentre aspettiamo la replica predisponiamo la sala macchine per poter interfacciare VM con il mondo. In sostanza anticipiamo dei lavori che erano schedulati per metà settimana prossima e li facciamo a caldo senza interrompere i servizi. Riconfiguriamo a caldo le reti sempre senza disservizi e alla sera alle 19:00 ci troviamo con exchange replicato e la farm ricostruita per il 30%. Andiamo a mangiare qualche cosa mentre il server virtuale di exchange si avvia e appena torniamo è comparsa la gina per il logon. A questo punto prendiamo la macchina exchange fisica e travasiamo i 100GB di dati sulla SAN in cira 25 minuti.Ci rispostiamo sull’exchange virtuale, montiamo la LUN a caldo tramite Win2k3 avviamo il servizio di gestione della posta di exchange… TUTTO FUNZIONA… Riavviamo per srupolo la macchina virtuale, facciamo dei test e tutto è collaudato e ok.
Ora tocca al server WEB da cui eravamo partiti. Inseriamo i dischi del server bruciato nel ferro di Exchange accendiamo e… 1 Logical drive fonund. In 10 minuti la macchina web è tornata attiva. La inseriamo nel nuovo armadio montato e cablato in giornata e alle 00:35 i servizi sono tornati tutti ONLINE.

disk