211service.com
IBM crea la più grande unità di dati di sempre
I ricercatori del laboratorio di ricerca IBM di Almaden, in California, stanno costruendo un repository di dati quasi 10 volte più grande di qualsiasi altro creato prima. L'unità da 120 petabyte, ovvero 120 milioni di gigabyte, è composta da 200.000 unità disco rigido convenzionali che lavorano insieme. Si prevede che il gigantesco contenitore di dati memorizzi circa un trilione di file e dovrebbe fornire lo spazio necessario per consentire simulazioni più potenti di sistemi complessi, come quelli utilizzati per modellare il tempo e il clima.
Un'unità da 120 petabyte potrebbe contenere 24 miliardi di file MP3 tipici da cinque megabyte o ingoiare comodamente 60 copie del più grande backup del Web, i 150 miliardi di pagine che costituiscono l'archivio di Internet. Macchina WayBack .
Il gruppo di archiviazione dei dati a IBM Almaden sta sviluppando il sistema di archiviazione da record per un cliente senza nome che necessita di un nuovo supercomputer per simulazioni dettagliate di fenomeni del mondo reale. Tuttavia, le nuove tecnologie sviluppate per costruire un archivio così grande potrebbero consentire sistemi simili per l'elaborazione commerciale più convenzionale, afferma Bruce Hillsberg , direttore della ricerca sullo storage presso IBM e leader del progetto.
Questo sistema da 120 petabyte è ora ai margini della follia, ma tra qualche anno potrebbe essere che tutti i sistemi di cloud computing lo siano, afferma Hillsberg. Il solo tenere traccia dei nomi, dei tipi e di altri attributi dei file archiviati nel sistema consumerà circa due petabyte della sua capacità.
Steve Conway, vicepresidente della ricerca con la società di analisi IDC specializzata in High Performance Computing (HPC), afferma che il repository di IBM è significativamente più grande rispetto ai precedenti sistemi di storage. Un array di archiviazione da 120 petabye sarebbe facilmente il più grande che abbia mai incontrato, dice. Gli array più grandi disponibili oggi hanno una dimensione di circa 15 petabyte. I problemi di supercalcolo che potrebbero trarre vantaggio da una maggiore memorizzazione dei dati includono previsioni meteorologiche, elaborazione sismica nell'industria petrolifera e studi molecolari di genomi o proteine, afferma Conway.
Gli ingegneri di IBM hanno sviluppato una serie di nuove tecniche hardware e software per consentire un così grande aumento della capacità di archiviazione dei dati. Trovare un modo per combinare in modo efficiente le migliaia di dischi rigidi da cui è costruito il sistema è stata una sfida. Come nella maggior parte dei data center, le unità si trovano in cassetti orizzontali impilati all'interno di rack alti. Eppure i ricercatori di IBM hanno dovuto renderli significativamente più larghi del solito per inserire più dischi in un'area più piccola. I dischi devono essere raffreddati con acqua di circolazione anziché con ventilatori standard.
Gli inevitabili guasti che si verificano regolarmente in una raccolta così ampia di dischi rappresentano un'altra grande sfida, afferma Hillsberg. IBM utilizza la tattica standard di archiviare più copie di dati su dischi diversi, ma impiega nuovi perfezionamenti che consentono a un supercomputer di continuare a funzionare a velocità quasi massima anche quando un'unità si guasta.
Quando un disco solitario muore, il sistema estrae i dati da altre unità e li scrive lentamente sulla sostituzione del disco, in modo che il supercomputer possa continuare a funzionare. Se si verificano più errori tra le unità vicine, il processo di ricostruzione accelera per evitare la possibilità che si verifichi un altro errore e cancelli definitivamente alcuni dati. Hillsberg afferma che il risultato è un sistema che non dovrebbe perdere alcun dato per un milione di anni senza scendere a compromessi sulle prestazioni.
Il nuovo sistema beneficia anche di un file system noto come GPFS che è stato sviluppato presso IBM Almaden per consentire ai supercomputer un accesso più rapido ai dati. Distribuisce singoli file su più dischi in modo che molte parti di un file possano essere lette o scritte contemporaneamente. GPFS consente inoltre a un sistema di grandi dimensioni di tenere traccia dei suoi numerosi file senza scansionarli laboriosamente tutti. Il mese scorso un team di IBM ha utilizzato GPFS per indicizzare 10 miliardi di file in 43 minuti, superando senza sforzo il precedente record di un miliardo di file scansionati in tre ore.
I miglioramenti del software come quelli in fase di sviluppo per GPFS e il ripristino del disco sono fondamentali per abilitare unità di dati così giganti, afferma Hillsberg, perché per essere pratici, devono diventare non solo più grandi, ma anche più veloci. I dischi rigidi non stanno diventando più veloci o più affidabili in proporzione alle richieste di più spazio di archiviazione, quindi il software deve fare la differenza.
Conway di IDC concorda sul fatto che un accesso più rapido a sistemi di archiviazione dati più grandi sta diventando cruciale per il supercalcolo, anche se i supercomputer vengono spesso confrontati pubblicamente sulla velocità del processore, come nel caso dell'elenco TOP500 globale utilizzato per determinare i diritti di vanteria internazionali. Le grandi unità stanno diventando importanti perché le simulazioni stanno diventando sempre più grandi e molti problemi vengono affrontati utilizzando i cosiddetti metodi iterativi, in cui una simulazione viene eseguita migliaia di volte e i risultati vengono confrontati, afferma Conway. È comune anche il checkpoint, una tecnica in cui un supercomputer salva le istantanee del suo lavoro nel caso in cui il lavoro non venga completato correttamente. Queste tendenze hanno prodotto un'esplosione di dati nella comunità HPC, afferma Conway.