Big Data in the Cloud - Quanto sono sicuri i nostri dati? - Tecnologia

Video: I nuovi orizzonti dell’Industria: Big Data Analytics

Contenuto

Problemi di sicurezza nei quadri di programmazione distribuita
Problemi relativi ai dati e al registro delle transazioni
Problemi di convalida dei dati
Monitoraggio della sicurezza dei Big Data in tempo reale
Nessun bug, nessuno stress: la tua guida passo passo alla creazione di software che ti cambia la vita senza distruggere la tua vita
Strategie per affrontare le minacce alla sicurezza
Miglioramento dell'affidabilità nei quadri di programmazione distribuita
Forti politiche di protezione dei dati
Analisi
Rileva valori anomali durante la raccolta dei dati
Conclusione

Fonte: Cuteimage / Dreamstime.com

Porta via:

Esplora le maggiori minacce ai big data nel cloud e scopri come proteggerle.

Il volume dei big data aumenta di giorno in giorno. A partire da 2.500 exabyte nel 2012, i big data dovrebbero aumentare a 40.000 exabyte nel 2020. Pertanto, l'archiviazione dei dati rappresenta una seria sfida che solo l'infrastruttura cloud è in grado di gestire. Il cloud è diventato un'opzione popolare principalmente a causa della sua enorme capacità di archiviazione e dei suoi termini e condizioni d'uso che non impongono alcun obbligo al sottoscrittore. Il cloud storage può essere offerto sotto forma di abbonamenti e servizi durano per un periodo predeterminato. Successivamente, non vi è alcun obbligo da parte del cliente di rinnovarlo.

Tuttavia, l'archiviazione di big data nel cloud apre nuove sfide alla sicurezza che non possono essere affrontate con misure di sicurezza adottate per dati statici regolari. Sebbene i big data non siano un concetto nuovo, la sua raccolta e il loro utilizzo hanno iniziato a salire di ritmo solo negli ultimi anni. In passato, l'archiviazione e l'analisi dei big data erano limitate solo alle grandi società e al governo che potevano permettersi l'infrastruttura necessaria per l'archiviazione e l'estrazione dei dati. Tale infrastruttura era proprietaria e non esposta a reti generali. Tuttavia, i big data sono ora disponibili a basso costo per tutti i tipi di aziende attraverso l'infrastruttura cloud pubblica. Di conseguenza, sono sorte nuove e sofisticate minacce alla sicurezza che continuano a moltiplicarsi e ad evolversi.

Problemi di sicurezza nei quadri di programmazione distribuita

I framework di programmazione distribuita elaborano i big data con tecniche parallele di calcolo e memorizzazione. In tali framework, i mapper non autenticati o modificati, che dividono enormi attività in attività secondarie più piccole in modo che le attività possano essere aggregate per creare un output finale, possono compromettere i dati. I nodi di lavoro difettosi o modificati - che accettano input dal mapper per eseguire le attività - possono compromettere i dati toccando la comunicazione dei dati tra il mapper e altri nodi di lavoro. I nodi di lavoro non autorizzati possono anche creare copie di nodi di lavoro legittimi. Il fatto che sia estremamente difficile identificare mapper o nodi canaglia in un framework così vasto rende la sicurezza dei dati ancora più difficile.

La maggior parte dei framework di dati basati su cloud utilizzano il database NoSQL. Il database NoSQL è utile per la gestione di enormi set di dati non strutturati, ma dal punto di vista della sicurezza, è mal progettato. NoSQL è stato originariamente progettato senza considerare quasi tutte le considerazioni sulla sicurezza. Uno dei maggiori punti deboli di NoSQL è l'integrità transazionale. Ha scarsi meccanismi di autenticazione, il che lo rende vulnerabile agli attacchi man-in-the-middle o replay. A peggiorare le cose, NoSQL non supporta l'integrazione di moduli di terze parti per rafforzare i meccanismi di autenticazione. Poiché i meccanismi di autenticazione sono piuttosto deboli, i dati sono anche esposti ad attacchi interni. Gli attacchi potrebbero passare inosservati e non monitorati a causa di meccanismi di analisi e registrazione dei registri scadenti.

Problemi relativi ai dati e al registro delle transazioni

I dati vengono generalmente archiviati in supporti di archiviazione a più livelli. È relativamente facile tenere traccia dei dati quando il volume è relativamente piccolo e statico. Ma quando il volume aumenta esponenzialmente, vengono utilizzate soluzioni di tiering automatico. Le soluzioni di tiering automatico memorizzano i dati in livelli diversi ma non tengono traccia delle posizioni. Questo è un problema di sicurezza. Ad esempio, un'organizzazione può disporre di dati riservati che vengono utilizzati raramente. Tuttavia, le soluzioni di tiering automatico non distingueranno tra dati sensibili e non sensibili e memorizzeranno solo i dati a cui si accede raramente nel livello più basso. I livelli più bassi hanno la sicurezza più bassa disponibile.

Problemi di convalida dei dati

In un'organizzazione, i big data possono essere raccolti da varie fonti che includono dispositivi endpoint come applicazioni software e dispositivi hardware. È una grande sfida garantire che i dati raccolti non siano dannosi. Chiunque abbia intenzioni dannose può manomettere il dispositivo che fornisce dati o l'applicazione che raccoglie dati. Ad esempio, un hacker può provocare un attacco Sybil su un sistema e quindi utilizzare le identità false per fornire dati dannosi al server o al sistema di raccolta centrale. Questa minaccia è particolarmente applicabile in uno scenario di portare il proprio dispositivo (BYOD) perché gli utenti possono utilizzare i propri dispositivi personali all'interno della rete aziendale.

Monitoraggio della sicurezza dei Big Data in tempo reale

Il monitoraggio in tempo reale dei dati è una grande sfida perché è necessario monitorare sia l'infrastruttura dei big data sia i dati che sta elaborando. Come sottolineato in precedenza, l'infrastruttura dei big data nel cloud è costantemente esposta alle minacce. Le entità dannose possono modificare il sistema in modo che acceda ai dati e quindi generi incessantemente falsi positivi. È estremamente rischioso ignorare i falsi positivi. Inoltre, queste entità possono tentare di eludere il rilevamento costruendo attacchi di evasione o persino utilizzare l'avvelenamento dei dati per ridurre l'affidabilità dei dati elaborati.

Nessun bug, nessuno stress: la tua guida passo passo alla creazione di software che ti cambia la vita senza distruggere la tua vita

Non puoi migliorare le tue capacità di programmazione quando a nessuno importa della qualità del software.

Strategie per affrontare le minacce alla sicurezza

Le strategie di sicurezza dei big data sono ancora in una fase nascente, ma devono evolversi rapidamente. Le risposte alle minacce alla sicurezza si trovano nella rete stessa. I componenti di rete richiedono assoluta affidabilità e ciò può essere ottenuto con solide strategie di protezione dei dati. Dovrebbe esserci tolleranza zero per le misure di protezione dei dati lassiste. Dovrebbe inoltre esistere un meccanismo forte e automatizzato per la raccolta e l'analisi dei registri degli eventi.

Miglioramento dell'affidabilità nei quadri di programmazione distribuita

Come sottolineato in precedenza, i mapper e i nodi di lavoro non attendibili possono compromettere la sicurezza dei dati. Pertanto, è richiesta l'affidabilità di mapper e nodi. Per fare ciò, i mappatori devono autenticare regolarmente i nodi di lavoro. Quando un nodo di lavoro invia una richiesta di connessione a un master, la richiesta verrà approvata a condizione che il lavoratore abbia un set predefinito di proprietà di trust. Successivamente, il lavoratore sarà regolarmente rivisto per verificarne la conformità alle politiche di fiducia e sicurezza.

Forti politiche di protezione dei dati

Le minacce alla sicurezza dei dati a causa della protezione intrinsecamente debole dei dati nel framework distribuito e nel database NoSQL devono essere affrontate. Le password devono essere crittografate o crittografate con algoritmi di hashing sicuri. I dati inattivi devono essere sempre crittografati e non lasciati in sospeso, anche dopo aver considerato l'impatto sulle prestazioni. La crittografia hardware e dei file di massa ha una natura più rapida e ciò potrebbe risolvere i problemi di prestazioni in una certa misura, ma una crittografia dell'appliance hardware può essere violata anche dagli aggressori. Considerando la situazione, è buona norma utilizzare SSL / TLS per stabilire connessioni tra il client e il server e per la comunicazione tra i nodi del cluster. Inoltre, l'architettura NoSQL deve consentire moduli di autenticazione di terze parti collegabili.

Analisi

L'analisi dei big data può essere utilizzata per monitorare e identificare connessioni sospette ai nodi del cluster e estrarre costantemente i registri per identificare eventuali minacce. Sebbene l'ecosistema Hadoop non abbia meccanismi di sicurezza integrati, è possibile utilizzare altri strumenti per monitorare e identificare attività sospette, soggetti a tali strumenti che soddisfano determinati standard. Ad esempio, tali strumenti devono essere conformi alle linee guida Open Web Application Security Project (OWASP). Si prevede che il monitoraggio in tempo reale degli eventi migliorerà con alcuni sviluppi già in atto. Ad esempio, Security Content Automation Protocol (SCAP) viene gradualmente applicato ai big data. Apache Kafka e Storm promettono di essere buoni strumenti di monitoraggio in tempo reale.

Rileva valori anomali durante la raccolta dei dati

Non esiste ancora un sistema a prova di intrusione per prevenire completamente le intrusioni non autorizzate al momento della raccolta dei dati. Tuttavia, le intrusioni possono essere significativamente ridotte. Innanzitutto, le applicazioni di raccolta dati devono essere sviluppate per essere il più sicure possibile, tenendo presente lo scenario BYOD quando l'applicazione può essere eseguita su più dispositivi non attendibili. In secondo luogo, determinati aggressori violeranno probabilmente anche il più forte sistema di raccolta e difesa di dati dannosi. Quindi, ci dovrebbero essere algoritmi per rilevare e filtrare tali input dannosi.

Conclusione

Le vulnerabilità dei big data nel cloud sono uniche e non possono essere risolte con le tradizionali misure di sicurezza. La protezione dei big data nel cloud è ancora un'area nascente perché alcune best practice come il monitoraggio in tempo reale sono ancora in fase di sviluppo e le best practice o le misure disponibili non vengono utilizzate rigorosamente. Tuttavia, considerando quanto siano redditizi i big data, le misure di sicurezza raggiungeranno sicuramente il prossimo futuro.