L’esplosione dei dati è la prima causa di inefficienze e sprechi nelle infrastrutture IT aziendali, sia in termini di costi, sia in termini di tempo speso nelle operazioni di protezione e di gestione. Questa tendenza è in continuo aumento. La quantità di dati aziendali cresce in media del 50 % all’anno. Secondo una stima effettuata da IDC Research, nel 2012 la mole di dati digitali creati e archiviati a livello globale crescerà di un fattore 5 rispetto ai livelli del 2009, superando i 2500 exabyte di capacità.
Entro il 2020, i dati digitali cresceranno di 44 volte rispetto ai livelli del 2010. Questa crescita è legata ad una serie di fattori fra cui l’utilizzo delle tecnologie Web 2.0, la progressiva conversione dei documenti cartacei in formato digitale e i requisiti sempre più severi imposti dalla legislazione sulle informazioni digitali.
I responsabili IT aziendali sono alla ricerca di soluzioni efficaci e convenienti per gestire i dati aziendali. Le aziende di grandi e di medie dimensioni, e più di recente anche le PMI, si stanno rendendo conto che, anzichè aggiungere ulteriori risorse hardware per gestire i dati, l’adozione di nuovi applicativi consente di contenere la crescita dei dati rispettando i vincoli di budget, di consumi e di ingombri.
Le tecniche di deduplica sono emerse negli ultimi anni per la gestione e il backup efficace dei dati aziendali. Queste tecniche sono in grado di ridurre i requisiti di storage contenendo la ridondanza dei dati e supportano l’archiviazione su disco di una quantità di dati anche 20 volte superiori rispetto alle soluzioni tradizionali. Il flusso di dati viene esaminato quando giunge all’apparecchio di storage, per controllare se esistono dei blocchi di dati identici; vengono in seguito rimosse le copie ridondanti dei dati, di modo che rimanga una sola istanza dei dati su disco. Se usata in combinazione con altri metodi di ottimizzazione dei dati come la compressione, questa tecnica può ridurre drasticamente il volume dei dati aziendali.
Le soluzioni di deduplica, in passato estremamente complesse, rigide e poco scalabili, e attive principalmente a livello di post-processing, hanno subito una profonda evoluzione negli ultimi anni e sono oggi disponibili come una tecnologia distribuita che costituisce ormai parte integrante dei software di backup e ripristino.
Quali sono i vantaggi della deduplica?
La deduplica consente di ottimizzare l’efficienza dello storage e di ridurre i costi, grazie a requisiti di storage meno complessi, a finestre di backup più ridotte e ad un minor consumo della larghezza di banda di rete; tutto questo contribuisce notevolmente a ridurre i costi dell’IT.
In sintesi i vantaggi offerti dalla deduplica sono:
- riduzione dei costi: la deduplica ottimizza l’efficienza delle risorse, offrendo al contempo un risparmio sui costi associato alla riduzione dei requisiti di consumo, di raffreddamento e di ingombro del data center e alla razionalizzazione della capacità di storage, della larghezza di banda della rete e delle attività dello staff IT.
- miglioramento backup e il ripristino: la deduplica migliora significativamente le prestazioni di backup. Sfruttando lo storage su disco ad accesso casuale, assicura prestazioni di ripristino superiori rispetto a quelle dei metodi ad accesso sequenziale (a nastro). Rispetto a questi ultimi, le probabilità di guasto sono inesistenti o ridotte al minimo. L’utilizzo del disco semplifica inoltre l’esecuzione di verifiche dello stato, la risoluzione automatica degli errori e la prevenzione dai guasti. I backup tradizionali comportano il trasferimento di grandi quantità di dati ridondanti, che possono superare finestre di backup ridotte o inesistenti. Grazie alla deduplica è possibile ridurre il volume dei dati da sottoporre a backup, consentendo così di eseguire il backup di una maggiore quantità di dati entro la finestra disponibile. Inoltre il ripristino operativo avviene in tempi rapidi dal disco e non dal nastro.
- riduzione delle emissioni di anidride carbonica: la tecnologia di deduplica riduce non solo i requisiti di storage in termini di consumo, raffreddamento e ingombro, ma anche le emissioni di anidride carbonica e quindi l’impatto ambientale dell’infrastruttura IT.
Come avviene la deduplica?
Esistono numerose tecniche per la deduplica dei dati. Alcune sono specifiche di un produttore e sono quindi protette da brevetto; altre sono invece basate su metodologie e architetture aperte. Lo scopo di ogni approccio alla deduplica è di identificare la massima quantità di dati duplicati usando risorse minime.
La tecnica più comune si basa sulla divisione del flusso di dati in “segmenti” che vengono in seguito confrontati l’uno con l’altro. Tali segmenti, che possono essere di dimensioni fisse o variabili, sono valutati per individuare la presenza di dati ridondati su più sistemi e postazioni.
Ogni segmento di dati è elaborato usando un algoritmo hash ed è associato ad un identificativo unico, che viene in seguito confrontato con un indice. Se il numero di hash è già presente nell’indice, la porzione di dati in esame è considerata un duplicato e non deve essere più archiviata: viene semplicemente generato un link al dato originario. Altrimenti il numero hash è aggiunto all’indice e i dati, riconosciuti come ‘nuovi’, sono archiviati su disco. L’intero processo di deduplica è stato pensato per essere del tutto trasparente agli utenti.
In alternativa, è possibile ricorrere alla deduplica dei dati basata su delta, che si occupa di archiviare o trasmettere i dati sotto forma di differenze rispetto a una copia di riferimento. Quest’ultima è una copia completa di dati utilizzata per ricreare altre versioni dei dati stessi. La deduplica delta può essere eseguita a livello di blocco o di byte.
Anziché utilizzare un numero di hash per determinare quali dati sono nuovi e quali sono replicati, questo metodo scansiona e indicizza il flusso dei dati in entrata, di modo da individuare i dati simili a quelli già archiviati. Poiché non è necessario elaborare un hash, uno dei vantaggi offerti da questo approccio è il minore utilizzo della CPU. Tuttavia, sono richiesti numerosi I/O del disco per confrontare i vecchi dati con i dati nuovi in entrata.
Attualmente sul mercato sono disponibili diversi tipi di prodotti che offrono funzionalità di deduplica. Queste soluzioni software si possono trovare sia come prodotti standalone, sia come componenti integrati di prodotti di backup.
Anche le applicazioni di backup, le appliance, le librerie VTL, le soluzioni di ottimizzazione della WAN e i sottosistemi di storage su disco possono includerne alcune.
L’esecuzione delle operazioni di deduplica possono avvenire in linea, come post-processo o al lato client:
- deduplica in linea: con questo approccio l’analisi dei dati, il calcolo del valore di hash e il confronto di quest’ultimo con l’indice avvengono mentre i dati viaggiano dalla sorgente al punto di destinazione. Si tratta del metodo di deduplica più efficiente ed economico. Consente di ridurre notevolmente la capacità su disco; d’altra parte tuttavia l’elaborazione intensa richiesta può rallentare la trasmissione dei dati.
- deduplica post-processo: con questa tecnica la deduplica avviene dopo che i dati sono trasferiti su disco. Questo approccio molto semplice da realizzare, richiede una capacità iniziale superiore rispetto al metodo in linea e genera sfasamenti prima del completamento della deduplicazione e della replica.
- deduplica al lato client: in questo caso la deduplica ha luogo là dove i dati risiedono. I calcoli hash sono effettuati sulla macchina client (alla sorgente). I file che hanno valori identici di hash rispetto ai file già presenti sul dispositivo di destinazione non sono inviati, e il dispositivo di destinazione genera semplicemente dei link interni ai dati sulla sorgente. In questo modo la quantità di dati che deve essere trasferita verso la destinazione è inferiore. Gli alti livelli di efficienza tuttavia sono ottenuti a scapito del consumo di risorse di CPU e di memoria richieste per analizzare i dati.
Ogni singolo approccio alla deduplica offre dunque vantaggi diversi in termini di capacità, prestazioni ed efficienza. La scelta su quale tipo di deduplica conviene adottare dipende dai requisiti specifici e dal budget dell’azienda.