Raddoppio UPS

Proprio così lunedì 29 Novembre a partire dalle 19 è stato fatto l’intervento per il raddoppio della potenza disponibile fornita dagli UPS. La preparazione dell’intervento nelle scorse settimane è stata tosta, anche la realizzazione e l’installazione dei circuiti elettrici non è stata propriamente semplice. Tutto pianificato nel dettaglio, pensate e ripensate le sequenze delle operazioni per evitare disservizi nella “sera critica”! Alla sera con la paura stranamente sotto controllo e l’adrenalina a mille dopo una decina di caffè abbiamo iniziato con spegnere e scollegare l’interruttore differenziale in cabina contatori in modo da poterlo sostituire. Qui ci è venuto in soccorso il nostro caro motogeneratore, il quale ci ha permesso senza indugi di lavorare con tutta la calma necessaria. Successivamente dopo aver riportato l’alimentazione della sala macchine sotto il nostro fornitore standard abbiamo provveduto a mettere fuori linea i due UPS esistenti. Questa operazione, devo dire con un po’ di timore, è andata liscia, da quel momento abbiamo potuto, con i tecnici esterni degli UPS, affiancare due nuove unità a quelle già presenti in configurazione parallela. Una di queste unità durante l’aggiornamento del firmware ha dato un problema, pertanto abbiamo deciso di non inserirla immediatamente nella nuova architettura. Controllati tutti i collegamenti, i parametri elettrici e le fasi abbiamo riportato la sala macchine sotto gli UPS. Tutto questo è stato possibile solo integrando dei quadri elettrici nuovi scollegando e ricablando parte del vecchio quadro generale.
Oggi i tecnici degli UPS sono tornati a farci visita portando i pezzi di ricambio per l’unità guasta. Sostituite le schede e testati nuovamente tutti i servizi riguardanti la parte del sistema di alimentazione gestito da quel gruppo di continuità abbiamo rifatto tutta la procedura, rimesso in parallelo le due unità per il settore DX del data centre, sincronizzato le macchine e riportato il settore DX sotto gli UPS.
Un lavoro come già detto delicatissimo eseguito in modo magistrale e super professionale.

Un Grazie doveroso a tutte le persone che hanno collaborato con me nel portare a termine questa ulteriore installazione, sapendo di essere stato pesante e di aver fatto ripetere millemilavolte gli stessi controlli nonostante avevamo analizzato il problema da ogni punto di vista possibile! Sapete come sono fatto… In particolare ad Ale che mettendosi d’impegno per capire cosa sto dicendo alla fine realizza sempre i progetti pensati da una mente malata come la mia!

GRAZIE!!

Sala Server 2

La fatica continua! Prevedo un fine anno faticoso per via del lavoro di ristrutturazione della farm e dell’attivazione dei nuovi servizi ASP. Come dicevo nel mio precedente post sono immerso in una fase di studio per preparare la ristrutturazione della farm partendo dalla parte di continuità elettrica con la sostituzione dell’UPS alla riprogettazione dell’impianto di climatizzazione.

La progettazione prevede la costruzione di un nuovo locale tecnico dove installare il nuovo gruppo di continuità e il quadro elettrico per la gestione del motogeneratore. Lo studio continua con il dimensionamento dell’ups e il del motogeneratore. Quest’ultimo deve reggere sia il carico offerto dal gruppo di continuità sia il carico delle unità refrigeranti attuali sommate a quella nuova da 20KW. Continuiamo con lo studio del sistema di refrigerazione che prevede sia l’ampliamento come detto poco fa delle macchine frigorifere sia il riposizionamento degli armadi Rack per dividere in sezioni calde e fredde la farm. Questo sezionamento secondo lo studio dovrebbe portarci a una gestione dell’ambiente che permetta il recupero dei flussi di aria calda per poterli evaquare verso l’esterno della farm.

Ulteriori dettagli saranno postati a studi unltimati.

Sala Server 1

Scrivo questa cosa con un po’ di giorni di ritardo, ma non avevo la testa per farlo.

Tutto ha inizio ilgiorno Lunedì 16 Luglio 2007 quando alla sera dopo le 18:30 vengono spenti i server del sistema editoriale per predisporre le prese di corrente che doveveno servire per alimentare i nuovi macchinari IBM. Dopo il lavoro durato poco più di 30 minuti ci troviamo con dover infilare due prese CEI fornite con le PDU IBMda 32A (comunemente chiamate ciabatte) in due prese CEI da 16A. Già abbiamo scoperto questa cosa a lavoro ultimato dopo aver aperto per la prima volta gli scatoloni con i componenti. Umm..! A quel punto decidiamo di desistere e con la coda tra le gambe abbiamo rimandato il lavoro per adattare l’impianto elettrico al Lunedì dopo.

Lunedì 23 Luglio intorno al solito orario 18:30 circa arriva l’elettricista con il quale dopo aver fermato tutto per la seconda volta provvediamo al collegamento dei fili. Il lavoro è andato molto bene e in poco tempo eravamo nuovamente online. Ci salutiamo tutti con l’idea di riprendere l’installazione del giorno sucessivo con la webcam. Felici banchettiamo con un ottimo pezzo di Speck originale portato dal Guru Toso e sultardi rincasiamo.

Martedì 24 Luglio alle 09:00 con Sixty ci troviamo in sala server per provvedere al posizionamento della webcam. Alle 10 arrivano i tecnici per preparare i server. Dopo non poche peripezzie verso le 19 di sera ci troviamo con tutto quanto montato. Viene spento un server in produzione con la SAN e vengono messi nel nuovo armadio. Viene predisposta la SAN per il funzionamento a 4Gb/s ma alla riaccensione si è presentata come una serie di semafori impazziti. Dopo un po’ di debug con i dati sui dischi non backuppati decidiamo di mollare il colpo e nello sconforto piu’ totale riavviamo la produzione e andiamo a casa.

Mercoledì 25 uno dei due tecnici che ha pernottato dalle nostre parti ha provveduto all’installazione dei server funzionati e all’apertura di un guasto verso IBM per una mother board non funzionante in un server nuovo. L’installazione procede correttamente fino a sera.

Giovedì 26 Luglio arrivano i ragazzi che iniziano l’installazione di tutto il software almeno per i server funzionanti.

Venerdì 27 Luglio arriva il tecnico IBM che dopo un po’ di prove decide di strappare e sbattere la piastra madre in un angolo della sala server dicendo “tanto va al macero” e sostituircela con una funzionante.

Martedì 31 Luglio ritornano i ragazzi dell’hardware che finiscono le installazioni dei SO e poi organizzano l’aggiornamento dei firmware della SAN per poterla finalmnte utilizzare a 4Gb/s con anche l’aggiunta dei 10 dischi da 146GB FC. La giornata passa velocemente e come di consueto alle 18:30 iniziano i lavori “pericolosi”. Viene spenta la SAN e iniziano gli aggiornamenti. Primo OK, Secondo OK Terzo OK, Quarto KO… Ci gela il sangue codici di errore impossibili. Sembra che la macchina stia facendo qualche cosa ma in realtà non sta a fa nulla. La LUN piu’ importante è comunqe salva quella piu’ piccola in RAID1 è degradata. Il disco secondario comparee scompare come una delle due controller. Tentiamo diverse vie fino a quando decidiamo di strappare dalla SAN il disco che ci crea problemi nella speranza che la SAN stessa si accorga della scomparsa e inizi a utilizzare un disco di SPARE. Questa cosa non accade e dopo aver googolato e letto i manuali decidiamo didistruggere la seconda LUN che non doveva contenere nulla. Distruggiamo la LUN e dopo circa 2 ore di lavoro la macchina riparte sempre e solo a 2Gb/s se si mette a 4Gb/s diventa un semaforo. Riusciamo a inserire i 10 dischi FC che ci servono ad aggiornarli il firmware, a costruire le LUN le partizioni e a montare queste ultime sui server. Pronti per andarcene a casa siamo consapevoli che abbiamo fatto qualche passo avanti ma non siamo ancora del tutto happy.

Mercoledì 01 Agosto subito dopo l’arrivo dei ragazzi che seguono l’installazione hardware viene aperta la chiamata con IBM per la sostituzione del disco. Scorrono i minuti fino a che non iniziano a chiamare le redazioni che non trovano più i loro dati. Già sulla partizione che si pensava vuota vi erano 250GB di dati… Umm!!! Che Fare??? Nulla dati persi e la tristezza ci assale. Il disco risultava ancora in allarme e con uno dei ragazzi scendiamo in ServerFarm e estraiamo il disco. Do un occhio all’elettronica per capiere come era fatta e lo ripongo al suo posto.

Giovedì 02 Agosto alla mattina mi arriva un server con un disco SATA guasto lo prendo e lancio un programmino per il recupero dei dati. Questa volta il recupero non è andato a buon fine. Tuttavia mentre ero in attesa mi sono ricordato del disco in sala server. Controllando l’elettronica avevo visto che il controller FC era collegato al disco su un connettore SATA e mi sono ricordato anche che il disco era in RAID1 quindi con la copia esatta dei dati. A quel punto sono sceso in farm ho preso il disco, gli ho smontato l’adattatore FC e l’ho attaccato al pc SATA su cui stavo lavorando. Da lì a due minuti è arrivato Toso, l’ho esortato acontrollare il disco E della macchina in laboratorio e 30 secondi dopo mi è letteralmente saltato sulle spalle. 45 minuti dopo questa cosa erano ritornati i 250 GB di dati sulla SAN nella nuova partizione.

Potete trovare le foto del disco smontato a qusto link

A quest’altro link invece potete trovare il blog dell’installazione sysedit.tumblr.com

Le soluzioni dei problemi si trovano sempre nei dettagli. Bisogna saperli sfruttare con tanta creatività.

Ecco due video dei momenti salienti del lavoro!


Day 1 installazione nuovo armadio editoriale

Day 2 configurazione nuovi server editoriale