5 Best practice per l'automazione della gestione degli incidenti rilevanti

Autore: Roger Morrison
Data Della Creazione: 27 Settembre 2021
Data Di Aggiornamento: 21 Giugno 2024
Anonim
5 Best practice per l'automazione della gestione degli incidenti rilevanti - Tecnologia
5 Best practice per l'automazione della gestione degli incidenti rilevanti - Tecnologia

Contenuto



Fonte: Pixtum / iStockphoto

Porta via:

Con una strategia di automazione intelligente, puoi rendere la risposta agli incidenti più rapida e semplice che mai, riducendo al minimo i tempi di inattività e le potenziali violazioni della sicurezza.

I principali incidenti IT si verificano all'interno delle aziende ogni singolo giorno. Mentre solo una manciata di titoli, eventi come interruzioni e violazioni della sicurezza possono compromettere seriamente la produttività dei dipendenti, influenzare negativamente le percezioni dei clienti e, soprattutto, causare perdite di entrate.

Pertanto, quando si tratta di gestire i principali incidenti IT, è meglio concentrarsi sull'impatto aziendale e sui profitti. Secondo il Ponemon Institute, il costo medio dei tempi di inattività nel 2016 è stato di $ 8.851 al minuto, ovvero oltre $ 500.000 all'ora, e i tempi di fermo tipici in media sono superiori a 90 minuti. E questo è solo il costo immediato! L'impatto a lungo termine come il danno alla reputazione e l'attrito del cliente sono imprevedibili e potenzialmente catastrofici.


Anche se non puoi evitare del tutto tutti i principali incidenti, puoi armare la tua organizzazione di essere il più preparata possibile per affrontarli quando si presentano. E un componente importante della tua strategia dovrebbe essere l'incorporazione dell'automazione. Le organizzazioni che massimizzano l'uso dell'automazione nei loro principali processi di risoluzione degli incidenti ottengono un ripristino più rapido del servizio e molti meno errori dovuti all'errore umano. Questo perché l'automazione influisce direttamente sulla tua capacità di ridurre la durata della finestra di impatto aziendale o di quel periodo costoso in cui gli utenti e le operazioni aziendali subiscono effettivamente l'impatto di un incidente. (Per saperne di più sull'automazione, vedi Automazione: il futuro della scienza dei dati e dell'apprendimento automatico?)

Al fine di massimizzare i benefici dell'automazione, è necessario esaminare quali attività devono svolgersi durante la finestra di impatto e capire come spostare tutte le altre attività prima dell'avvio dell'incidente o dopo che l'attività è tornata alle normali operazioni. Ecco cinque modi utili per iniziare.


1. Sviluppare e definire un processo

Definire un importante processo di gestione degli incidenti significa individuare ciò che può essere pianificato, coordinato o eseguito durante un incidente. Ciò può significare identificare i membri chiave del team di supporto in base al skillset e alla pianificazione, ad esempio, in modo che il service desk possa coinvolgerli nel modo più rapido ed efficiente possibile. Significa anche capire in che modo trasmettere le informazioni pertinenti al proprio team in modo che possano iniziare a risolvere immediatamente il problema, nonché tenere informate e aggiornate le parti interessate giuste.

L'automazione è fondamentale per gli aspetti chiave di questo processo. Ad esempio, è possibile automatizzare l'inclusione di informazioni rilevanti dagli strumenti di monitoraggio nei ticket del service desk o includere informazioni dal service desk nelle notifiche ai risolutori di incidenti. Puoi anche documentare l'intero incidente su un'unica fonte di verità globale accessibile a tutti. Ricorda che puoi esercitarti in questo processo per farlo nel modo giusto: non è necessario attendere un incidente nel mondo reale per testare il tuo approccio.

2. Ottimizza la tua infrastruttura

In questi giorni e nell'era della stanchezza vigile, è essenziale che tu non continui a bombardare i tuoi team con notifiche e informazioni irrilevanti che non si applicano a loro. L'applicazione di filtri agli avvisi di monitoraggio consentirà ai vostri team di concentrarsi più facilmente sull'ago nel pagliaio del rumore di routine. Questa è la chiave per rendere tutte le tue intuizioni e i dati veramente fruibili, piuttosto che aggiungere semplicemente al sovraccarico di informazioni.

I buoni modi per automatizzare includono l'uso di una soluzione APM per eseguire la ricerca per indicizzazione di tutte le applicazioni e i sistemi per individuare in modo proattivo le cause alla radice al punto da qualsiasi degrado delle prestazioni, prima di causare gravi interruzioni del servizio. È inoltre possibile integrare il monitoraggio, il service desk, le app di collaborazione e gli strumenti di chat per condividere informazioni coniche in tempo reale.

Nessun bug, nessuno stress: la tua guida passo passo alla creazione di software che ti cambia la vita senza distruggere la tua vita

Non puoi migliorare le tue capacità di programmazione quando a nessuno importa della qualità del software.

3. Misurare accuratamente MTTR

Come si misura il tempo medio di riparazione (MTTR)? Basi sul tempo totale in cui i team IT sono impegnati o sul tempo totale in cui l'attività è effettivamente influenzata? Se la tua risposta è la prima, dovresti riconsiderare la misurazione della finestra di impatto usando la prospettiva aziendale. Questo è un aspetto molto più accurato per i tuoi sforzi di ottimizzazione, perché il tuo obiettivo è ridurre al minimo l'impatto degli incidenti e non semplicemente presentare rapporti di risposta migliori alla tua commissione. (Per saperne di più sui tempi di inattività e su come vengono gestiti, dai un'occhiata a Che cosa significa realmente il tempo medio tra guasti.)

È possibile automatizzare fornendo piena visibilità sulle applicazioni per "retrocedere" retroattivamente, se necessario, e conservare un registro completo delle attività di risoluzione e delle comunicazioni per analisi e audit per migliorare i processi.

4. Mantenere informate le parti interessate - ma senza interrompere la risoluzione

Le parti interessate si aspettano comunicazioni efficaci e tempestive e allo stesso tempo si aspettano che gli esperti in materia si concentrino sul laser per risolvere i problemi. Sebbene sia possibile designare un punto di contatto di comunicazione per monitorare e coinvolgere gli utenti aziendali, una strategia più efficace sarebbe quella di creare una pagina Web self-service con aggiornamenti di stato. Ciò consente agli stakeholder di verificare da soli senza bombardare la tua squadra con ulteriori chiamate. Ricorda solo di aggiornare le parti interessate a intervalli regolari in modo che ricevano sempre e sappiano aspettarsi l'ultimo rapporto sullo stato. Non dimenticare che la comunicazione non dovrebbe fermarsi semplicemente perché il servizio è stato ripristinato! È importante che le parti interessate ricevano un riepilogo di ciò che è accaduto, di ciò che è stato appreso e di come prevenire la situazione in futuro.

L'automazione in questo caso può essere implementata per creare una pagina di stato automatica in tempo reale per le parti interessate, nonché per creare comandi slash nello strumento di chat per aggiornare quella pagina.

5. Raccogliere dati per supportare la gestione dei problemi

Il ripristino del servizio non rappresenta la fine della gestione degli incidenti! In effetti, alcune delle attività più preziose si verificano in seguito alla risoluzione. Raccogliendo dati diagnostici e di impatto ed eseguendo analisi delle cause alla radice, è possibile eseguire un controllo completo di un incidente rilevante che include l'implementazione di misure preventive per evitare simili incidenti in futuro. Inoltre, anche se si verifica nuovamente un incidente riconoscibile, è possibile creare una procedura definita per i tipi di dati che è necessario raccogliere e i passaggi necessari per determinare la risoluzione. In questo modo il tuo team deve semplicemente fare riferimento a una lista di controllo e concentrarsi sul loro obiettivo principale di ripristinare il servizio, piuttosto che preoccuparsi di ciò di cui hanno bisogno e quando.

Qui l'automazione può catturare e preservare le attività di risoluzione, comprese cose come le trascrizioni delle chat, in un unico sistema di registrazione per l'analisi. Inoltre, ti aiuterà a creare un catalogo di incidenti o problemi familiari, a consolidare le migliori pratiche per ciascuno di essi e quindi ad aumentare la velocità di risoluzione in futuro.

In conclusione: automatizza più intelligente, non di più

Tieni presente che una maggiore automazione non è necessariamente l'approccio migliore! È più importante capire quando, dove e come connettere i sistemi IT per supportare la gestione degli incidenti. Non vuoi aggiungere alcuna complessità non necessaria per aumentare i processi automatizzati. Ricorda che l'obiettivo è semplificare e consolidare il più possibile le operazioni al fine di far sentire i tuoi team autorizzati ad affrontare i problemi in modo efficiente. Si tratta di implementare in modo intelligente l'automazione per facilitare una serie ben coordinata di processi, personale competente e comunicazioni efficaci con le parti interessate, in modo da ridurre al minimo l'impatto complessivo sul business degli incidenti rilevanti.