5 Segnali di avvertimento di guasti alle apparecchiature critiche

Autore: Judy Howell
Data Della Creazione: 25 Luglio 2021
Data Di Aggiornamento: 23 Giugno 2024
Anonim
10 Segnali di Avvertimento Per Possibile Carenza di Vitamina D
Video: 10 Segnali di Avvertimento Per Possibile Carenza di Vitamina D

Contenuto


Porta via:

Ridurre i tempi di fermo attraverso una meticolosa pianificazione anticipata potrebbe significare la differenza tra crescita e declino del business. Ecco dove arriva il tempo medio tra il fallimento.

Non sottovalutare quanto le aziende di oggi contano su sistemi critici ogni giorno. Ecco perché è solo buonsenso che un'impresa sia in grado di valutare il rischio di guasti alle apparecchiature. Senza garanzie su quando un'apparecchiatura potrebbe guastarsi, ci deve essere almeno una stima accurata di quando non può più essere considerata affidabile.

Un'apparecchiatura altrimenti invisibile potrebbe non sembrare fondamentale per un'azienda, ma quando una singola ventola di raffreddamento si guasta, provoca un generatore che abbandona il fantasma e causa decine o addirittura centinaia di migliaia di utenti costosi problemi per un lungo periodo, è possibile vedere che essere in grado di stimare quali componenti della tua infrastruttura potrebbero non funzionare - e quando - è di fondamentale importanza. Ecco dove arriva il tempo medio tra i guasti (MTBF), il metodo su cui i professionisti IT si affidano per fornire risultati precisi stime su quando le apparecchiature critiche falliranno. Qui diamo uno sguardo a ciò che alla fine uccide alcuni tipi comuni di apparecchiature critiche e come MTBF può aiutare a salvare la situazione.


Che cos'è MTBF?

A ogni componente IT prodotto viene assegnato un numero di modello univoco. Coloro che svolgono un ruolo nell'infrastruttura critica vengono forniti ai clienti con una stima MTBF. I calcoli complessi per elaborare l'MTBF per un pezzo di equipaggiamento hanno luogo durante la lunga fase di test all'interno di una ricerca e sviluppo di prodotti e sono relativamente specifici per un particolare modello.

Se stai cercando l'MTBF per un particolare pezzo di equipaggiamento, lo troverai nel foglio delle specifiche dettagliate fornito dal produttore. Puoi anche contattare direttamente il produttore.

Routing

Un router di livello enterprise include molte parti, alcune in movimento e altre statiche. Le unità di alimentazione (PSU) e le ventole di raffreddamento hanno entrambe parti mobili, e sono quegli elementi che tendono ad essere punti di guasto, specialmente se l'unità non è alloggiata all'interno di un data center relativamente privo di polvere. Per fortuna, con alcuni input dell'amministratore la maggior parte dei router segnalerà a SysLog funzione, in modo che tutti i componenti guasti possano essere contrassegnati.


Interruttori

Sulla stessa linea, il livello successivo all'interno di una rete aziendale è l'hardware di commutazione. Sebbene gli switch di livello aziendale tendano anche a fare affidamento sui fan, di solito ce ne sono meno di quelli presenti nello chassis di un router. Se i meccanismi di ronzio delle ventole sono intatti, uno switch difettoso di solito si comporta in modo anomalo a livello di software, disabilitando una porta di switch in modo imprevisto o, più comunemente, esibendo comportamenti insoliti come la caduta di pacchetti, causando livelli variabili di interruzione del traffico o cambiando in modo errato impostazioni definite dall'utente senza che sia richiesto di farlo.

Il colosso della rete Cisco pubblicizza uno dei suoi router con un MTBF di 188.574 ore per il modello Cisco Catalyst 3750G-24TS. Se lo dividiamo per 8.765.81277 (il numero di ore in un anno), vediamo che questo modello ha una stima MTBF di circa 21,5 anni. Questa cifra è rassicurante se si considera che questa apparecchiatura deve funzionare senza problemi 24 ore su 24, 7 giorni su 7, anche se ovviamente in realtà è semplicemente un'indicazione della sua affidabilità. Anche così, offre agli utenti un'ipotesi plausibile sulla durata prevista di quel pezzo di equipaggiamento.

Potenza resiliente

I gruppi di continuità (UPS) collegati a un gran numero di batterie possono fornire energia di backup all'interno dell'azienda durante il breve periodo prima che i generatori si accendano durante un'interruzione di corrente. Alcuni guasti software specifici possono materializzarsi all'interno di un UPS, come con qualsiasi apparecchiatura, ma in genere le batterie da cui assorbono di solito causano la maggior preoccupazione. Se una batteria UPS viene spesso spenta e ricaricata, la sua capacità diminuirà più rapidamente e il suo tempo di funzionamento si ridurrà drasticamente. Non sorprende, è anche possibile che le batterie UPS si guastino completamente. Un UPS può segnalare su modem e reti quando si verificano guasti, ma il più delle volte gli UPS più vecchi attivano allarmi sonori quando si presenta un problema.

Nessun bug, nessuno stress: la tua guida passo passo alla creazione di software che ti cambia la vita senza distruggere la tua vita

Non puoi migliorare le tue capacità di programmazione quando a nessuno importa della qualità del software.

Archiviazione protetta

I dischi rigidi che usiamo oggi e su cui facciamo affidamento in misura così elevata sono diventati significativamente più affidabili negli ultimi dieci anni circa. Sono, tuttavia, lungi dall'essere infallibili e, a seconda di quale studio si potrebbe credere, sembrano funzionare correttamente per un periodo più lungo a seconda di una serie di fattori. (Una grande opinione su questo può essere trovata qui su The Remarketer.) Se il reporting dettagliato è abilitato e l'unità fornisce feedback sugli errori, i settori corrotti e gli errori di lettura / scrittura sono la chiave per individuare quando un disco all'interno di un array di archiviazione sta fallendo. Un altro problema comune all'interno dei server che utilizzano diversi dischi collegati a un controller RAID è che il controller stesso non funzionerà. Sfortunatamente, a volte i dischi rigidi smettono semplicemente di funzionare senza alcun preavviso, un problema che è difficile da proteggere in modo affidabile.

server

A parte le unità integrate nei server e le parti mobili, come le ventole di raffreddamento e le PSU sopra menzionate, possono insorgere una serie di problemi all'interno dei componenti hardware di un server. Il reporting a livello di software (che di solito si riferisce al BIOS o ad altri strumenti diagnostici di basso livello per i componenti hardware) è la chiave per individuare quando le cose sono fallite o, cosa più importante, mostrano segni di fallimento. Un problema che potrebbe non essere immediatamente evidente è quello che riguarda le schede madri. Ha perfettamente senso che alle macchine non piaccia troppo calore. Ma anche oggi, se un moderno circuito stampato è soggetto a una rapida perdita di calore - o passa da molto caldo a diventare improvvisamente freddo - possono apparire crepe, che causano un guasto disastroso della scheda. È un problema da tenere a mente, soprattutto se si sposta l'attrezzatura tra gli edifici all'interno di un periodo di tempo che non perdona.

MTBF: può anche fallire

Utile quanto le previsioni MTBF sono importanti per calcolare i livelli di rischio accettabile con qualsiasi attrezzatura su cui un'azienda deve fare affidamento. Sfortunatamente, anche con tutte le rassicurazioni statistiche fornite dai produttori, l'unico modo concreto per garantire la disponibilità dell'apparecchiatura che esegue i sistemi critici è raddoppiarlo per consentire un failover di timeout.

Ogni singolo componente hardware utilizzato nell'azienda è composto da molti componenti diversi, quindi il vero MTBF è tutt'altro che un banale calcolo. Chiaramente, è fondamentale non basare il futuro delle imprese su queste misurazioni della probabilità, ma piuttosto usarle come parametro per prendere decisioni informate in merito alla continuità aziendale e alle procedure di ripristino di emergenza. Dopotutto, ridurre i tempi di fermo attraverso una meticolosa pianificazione anticipata potrebbe significare la differenza tra un'azienda di successo e un fallimento aziendale.