Raddoppio UPS

Proprio così lunedì 29 Novembre a partire dalle 19 è stato fatto l’intervento per il raddoppio della potenza disponibile fornita dagli UPS. La preparazione dell’intervento nelle scorse settimane è stata tosta, anche la realizzazione e l’installazione dei circuiti elettrici non è stata propriamente semplice. Tutto pianificato nel dettaglio, pensate e ripensate le sequenze delle operazioni per evitare disservizi nella “sera critica”! Alla sera con la paura stranamente sotto controllo e l’adrenalina a mille dopo una decina di caffè abbiamo iniziato con spegnere e scollegare l’interruttore differenziale in cabina contatori in modo da poterlo sostituire. Qui ci è venuto in soccorso il nostro caro motogeneratore, il quale ci ha permesso senza indugi di lavorare con tutta la calma necessaria. Successivamente dopo aver riportato l’alimentazione della sala macchine sotto il nostro fornitore standard abbiamo provveduto a mettere fuori linea i due UPS esistenti. Questa operazione, devo dire con un po’ di timore, è andata liscia, da quel momento abbiamo potuto, con i tecnici esterni degli UPS, affiancare due nuove unità a quelle già presenti in configurazione parallela. Una di queste unità durante l’aggiornamento del firmware ha dato un problema, pertanto abbiamo deciso di non inserirla immediatamente nella nuova architettura. Controllati tutti i collegamenti, i parametri elettrici e le fasi abbiamo riportato la sala macchine sotto gli UPS. Tutto questo è stato possibile solo integrando dei quadri elettrici nuovi scollegando e ricablando parte del vecchio quadro generale.
Oggi i tecnici degli UPS sono tornati a farci visita portando i pezzi di ricambio per l’unità guasta. Sostituite le schede e testati nuovamente tutti i servizi riguardanti la parte del sistema di alimentazione gestito da quel gruppo di continuità abbiamo rifatto tutta la procedura, rimesso in parallelo le due unità per il settore DX del data centre, sincronizzato le macchine e riportato il settore DX sotto gli UPS.
Un lavoro come già detto delicatissimo eseguito in modo magistrale e super professionale.

Un Grazie doveroso a tutte le persone che hanno collaborato con me nel portare a termine questa ulteriore installazione, sapendo di essere stato pesante e di aver fatto ripetere millemilavolte gli stessi controlli nonostante avevamo analizzato il problema da ogni punto di vista possibile! Sapete come sono fatto… In particolare ad Ale che mettendosi d’impegno per capire cosa sto dicendo alla fine realizza sempre i progetti pensati da una mente malata come la mia!

GRAZIE!!

Router Cisco

In pochi giorni due router cisco un 857-k9 e un 1801-k9 danneggiati. In entrambi i casi sono bruciate le porte atm.

Già in mendo di 48 ore a diversi chilometri di distanza in giorni di sole si sono danneggiate in modo irreparabile le porte atm dei router. Sapete perfettamente che difronte a una machina guasta non resisto e voglio aprire. Svito le viti, tolgo la copertura, controllo nei pressi della porta ed ecco! Un vistosissimo guasto dovuto a una sovratensione presumibilmente di circa 50V che hanno fatto fondere l’optoisolatore della porta. La tensione è stata così elevata e somministrata per un periodo (lungo) che ha addirittura carbonizzato la scheda in vetronite spessa due mm.

Ora il caso dice che i due router guastati erano collegati a una linea di un operatore N appoggiata sull’ultimo miglio telecom in due province differenti a almeno quaranta chilometri di distanza. La domanda sorge spontanea… Non è che per caso telecom ha qualche cos che non va sulle proprie linee…

Bho speriamo che non ricapiti su altri apparati….

Come al solito potete trovare le foto a questo link

Piscina in Riempimento

Sala Server 1

Scrivo questa cosa con un po’ di giorni di ritardo, ma non avevo la testa per farlo.

Tutto ha inizio ilgiorno Lunedì 16 Luglio 2007 quando alla sera dopo le 18:30 vengono spenti i server del sistema editoriale per predisporre le prese di corrente che doveveno servire per alimentare i nuovi macchinari IBM. Dopo il lavoro durato poco più di 30 minuti ci troviamo con dover infilare due prese CEI fornite con le PDU IBMda 32A (comunemente chiamate ciabatte) in due prese CEI da 16A. Già abbiamo scoperto questa cosa a lavoro ultimato dopo aver aperto per la prima volta gli scatoloni con i componenti. Umm..! A quel punto decidiamo di desistere e con la coda tra le gambe abbiamo rimandato il lavoro per adattare l’impianto elettrico al Lunedì dopo.

Lunedì 23 Luglio intorno al solito orario 18:30 circa arriva l’elettricista con il quale dopo aver fermato tutto per la seconda volta provvediamo al collegamento dei fili. Il lavoro è andato molto bene e in poco tempo eravamo nuovamente online. Ci salutiamo tutti con l’idea di riprendere l’installazione del giorno sucessivo con la webcam. Felici banchettiamo con un ottimo pezzo di Speck originale portato dal Guru Toso e sultardi rincasiamo.

Martedì 24 Luglio alle 09:00 con Sixty ci troviamo in sala server per provvedere al posizionamento della webcam. Alle 10 arrivano i tecnici per preparare i server. Dopo non poche peripezzie verso le 19 di sera ci troviamo con tutto quanto montato. Viene spento un server in produzione con la SAN e vengono messi nel nuovo armadio. Viene predisposta la SAN per il funzionamento a 4Gb/s ma alla riaccensione si è presentata come una serie di semafori impazziti. Dopo un po’ di debug con i dati sui dischi non backuppati decidiamo di mollare il colpo e nello sconforto piu’ totale riavviamo la produzione e andiamo a casa.

Mercoledì 25 uno dei due tecnici che ha pernottato dalle nostre parti ha provveduto all’installazione dei server funzionati e all’apertura di un guasto verso IBM per una mother board non funzionante in un server nuovo. L’installazione procede correttamente fino a sera.

Giovedì 26 Luglio arrivano i ragazzi che iniziano l’installazione di tutto il software almeno per i server funzionanti.

Venerdì 27 Luglio arriva il tecnico IBM che dopo un po’ di prove decide di strappare e sbattere la piastra madre in un angolo della sala server dicendo “tanto va al macero” e sostituircela con una funzionante.

Martedì 31 Luglio ritornano i ragazzi dell’hardware che finiscono le installazioni dei SO e poi organizzano l’aggiornamento dei firmware della SAN per poterla finalmnte utilizzare a 4Gb/s con anche l’aggiunta dei 10 dischi da 146GB FC. La giornata passa velocemente e come di consueto alle 18:30 iniziano i lavori “pericolosi”. Viene spenta la SAN e iniziano gli aggiornamenti. Primo OK, Secondo OK Terzo OK, Quarto KO… Ci gela il sangue codici di errore impossibili. Sembra che la macchina stia facendo qualche cosa ma in realtà non sta a fa nulla. La LUN piu’ importante è comunqe salva quella piu’ piccola in RAID1 è degradata. Il disco secondario comparee scompare come una delle due controller. Tentiamo diverse vie fino a quando decidiamo di strappare dalla SAN il disco che ci crea problemi nella speranza che la SAN stessa si accorga della scomparsa e inizi a utilizzare un disco di SPARE. Questa cosa non accade e dopo aver googolato e letto i manuali decidiamo didistruggere la seconda LUN che non doveva contenere nulla. Distruggiamo la LUN e dopo circa 2 ore di lavoro la macchina riparte sempre e solo a 2Gb/s se si mette a 4Gb/s diventa un semaforo. Riusciamo a inserire i 10 dischi FC che ci servono ad aggiornarli il firmware, a costruire le LUN le partizioni e a montare queste ultime sui server. Pronti per andarcene a casa siamo consapevoli che abbiamo fatto qualche passo avanti ma non siamo ancora del tutto happy.

Mercoledì 01 Agosto subito dopo l’arrivo dei ragazzi che seguono l’installazione hardware viene aperta la chiamata con IBM per la sostituzione del disco. Scorrono i minuti fino a che non iniziano a chiamare le redazioni che non trovano più i loro dati. Già sulla partizione che si pensava vuota vi erano 250GB di dati… Umm!!! Che Fare??? Nulla dati persi e la tristezza ci assale. Il disco risultava ancora in allarme e con uno dei ragazzi scendiamo in ServerFarm e estraiamo il disco. Do un occhio all’elettronica per capiere come era fatta e lo ripongo al suo posto.

Giovedì 02 Agosto alla mattina mi arriva un server con un disco SATA guasto lo prendo e lancio un programmino per il recupero dei dati. Questa volta il recupero non è andato a buon fine. Tuttavia mentre ero in attesa mi sono ricordato del disco in sala server. Controllando l’elettronica avevo visto che il controller FC era collegato al disco su un connettore SATA e mi sono ricordato anche che il disco era in RAID1 quindi con la copia esatta dei dati. A quel punto sono sceso in farm ho preso il disco, gli ho smontato l’adattatore FC e l’ho attaccato al pc SATA su cui stavo lavorando. Da lì a due minuti è arrivato Toso, l’ho esortato acontrollare il disco E della macchina in laboratorio e 30 secondi dopo mi è letteralmente saltato sulle spalle. 45 minuti dopo questa cosa erano ritornati i 250 GB di dati sulla SAN nella nuova partizione.

Potete trovare le foto del disco smontato a qusto link

A quest’altro link invece potete trovare il blog dell’installazione sysedit.tumblr.com

Le soluzioni dei problemi si trovano sempre nei dettagli. Bisogna saperli sfruttare con tanta creatività.

Ecco due video dei momenti salienti del lavoro!


Day 1 installazione nuovo armadio editoriale

Day 2 configurazione nuovi server editoriale