No deixeu que l'emmagatzematge es converteixi en el coll d'ampolla clau en la formació de models

S'ha dit que les empreses tecnològiques estan buscant GPU o estan en camí d'adquirir-les.A l'abril, el CEO de Tesla, Elon Musk, va comprar 10.000 GPU i va declarar que la companyia continuaria comprant una gran quantitat de GPU a NVIDIA.Pel que fa a l'empresa, el personal informàtic també s'esforça per garantir que les GPU s'utilitzen constantment per maximitzar el retorn de la inversió.Tanmateix, algunes empreses poden trobar que, mentre augmenta el nombre de GPU, la inactivitat de la GPU es torna més severa.

Si la història ens ha ensenyat alguna cosa sobre la informàtica d'alt rendiment (HPC), és que l'emmagatzematge i les xarxes no s'han de sacrificar a costa de centrar-nos massa en la computació.Si l'emmagatzematge no pot transferir dades de manera eficient a les unitats informàtiques, fins i tot si teniu la majoria de GPU del món, no aconseguireu una eficiència òptima.

Segons Mike Matchett, analista de Small World Big Data, es poden executar models més petits a la memòria (RAM), cosa que permet centrar-se més en la computació.Tanmateix, els models més grans com ChatGPT amb milers de milions de nodes no es poden emmagatzemar a la memòria a causa de l'alt cost.

"No podeu cabre milers de milions de nodes a la memòria, de manera que l'emmagatzematge esdevé encara més important", diu Matchett.Malauradament, sovint es passa per alt l'emmagatzematge de dades durant el procés de planificació.

En general, independentment del cas d'ús, hi ha quatre punts comuns en el procés d'entrenament del model:

1. Formació de model
2. Aplicació d'inferència
3. Emmagatzematge de dades
4. Informàtica accelerada

Quan es creen i es despleguen models, la majoria dels requisits prioritzen la prova de concepte ràpida (POC) o els entorns de prova per iniciar la formació de models, sense tenir en compte les necessitats d'emmagatzematge de dades.

Tanmateix, el repte rau en el fet que la formació o el desplegament d'inferència poden durar mesos o fins i tot anys.Moltes empreses augmenten ràpidament la mida dels seus models durant aquest temps i la infraestructura s'ha d'ampliar per adaptar-se als models i conjunts de dades en creixement.

La investigació de Google sobre milions de càrregues de treball d'entrenament d'ML revela que una mitjana del 30% del temps de formació es dedica a la canalització de dades d'entrada.Tot i que les investigacions anteriors s'han centrat a optimitzar les GPU per accelerar la formació, encara queden molts reptes per optimitzar diverses parts del canal de dades.Quan teniu una potència computacional important, el veritable coll d'ampolla es converteix en la rapidesa amb la qual podeu introduir dades als càlculs per obtenir resultats.

Concretament, els reptes en l'emmagatzematge i la gestió de dades requereixen planificar el creixement de les dades, cosa que us permet extreure contínuament el valor de les dades a mesura que avanceu, especialment quan us aventureu en casos d'ús més avançats, com ara l'aprenentatge profund i les xarxes neuronals, que exigeixen més emmagatzematge en termes de capacitat, rendiment i escalabilitat.

En particular:

Escalabilitat
L'aprenentatge automàtic requereix manejar grans quantitats de dades i, a mesura que augmenta el volum de dades, la precisió dels models també millora.Això vol dir que les empreses han de recollir i emmagatzemar més dades cada dia.Quan l'emmagatzematge no pot escalar, les càrregues de treball intensives en dades creen colls d'ampolla, limitant el rendiment i donant lloc a un costós temps d'inactivitat de la GPU.

Flexibilitat
És necessari un suport flexible per a diversos protocols (inclosos NFS, SMB, HTTP, FTP, HDFS i S3) per satisfer les necessitats de diferents sistemes, en lloc de limitar-se a un sol tipus d'entorn.

Latència
La latència d'E/S és fonamental per crear i utilitzar models, ja que les dades es llegeixen i es rellegeixen diverses vegades.La reducció de la latència d'E/S pot escurçar el temps d'entrenament dels models en dies o mesos.El desenvolupament més ràpid del model es tradueix directament en majors avantatges empresarials.

Rendiment
El rendiment dels sistemes d'emmagatzematge és crucial per a una formació eficient del model.Els processos d'entrenament impliquen grans quantitats de dades, normalment en terabytes per hora.

Accés paral·lel
Per aconseguir un alt rendiment, els models d'entrenament divideixen les activitats en múltiples tasques paral·leles.Això sovint significa que els algorismes d'aprenentatge automàtic accedeixen als mateixos fitxers des de diversos processos (potencialment en diversos servidors físics) simultàniament.El sistema d'emmagatzematge ha de gestionar les demandes concurrents sense comprometre el rendiment.

Amb les seves capacitats excepcionals en baixa latència, alt rendiment i E/S paral·leles a gran escala, Dell PowerScale és un complement d'emmagatzematge ideal per a la informàtica accelerada per GPU.PowerScale redueix eficaçment el temps necessari per als models d'anàlisi que entrenen i posen a prova conjunts de dades de diversos terabytes.A l'emmagatzematge totalment flash de PowerScale, l'ample de banda augmenta 18 vegades, eliminant els colls d'ampolla d'E/S i es pot afegir als clústers Isilon existents per accelerar i desbloquejar el valor de grans quantitats de dades no estructurades.

A més, les capacitats d'accés multiprotocol de PowerScale proporcionen una flexibilitat il·limitada per executar càrregues de treball, permetent que les dades s'emmagatzemin mitjançant un protocol i s'accedeixi mitjançant un altre.Concretament, les potents funcions, la flexibilitat, l'escalabilitat i la funcionalitat de nivell empresarial de la plataforma PowerScale ajuden a afrontar els reptes següents:

- Accelerar la innovació fins a 2,7 vegades, reduint el cicle formatiu del model.

- Elimineu els colls d'ampolla d'E/S i proporcioneu una formació i validació de models més ràpides, una precisió millorada del model, una productivitat millorada de la ciència de dades i un retorn màxim de les inversions en informàtica aprofitant funcions de nivell empresarial, alt rendiment, concurrència i escalabilitat.Milloreu la precisió del model amb conjunts de dades més profunds i de major resolució aprofitant fins a 119 PB de capacitat d'emmagatzematge efectiva en un únic clúster.

- Aconseguiu el desplegament a escala iniciant un càlcul i emmagatzematge petit i escalant de manera independent, oferint opcions de seguretat i protecció de dades robustes.

- Milloreu la productivitat de la ciència de dades amb anàlisis in situ i solucions prevalidades per a desplegaments més ràpids i de baix risc.

- Aprofitant dissenys provats basats en les millors tecnologies, inclosa l'acceleració de GPU de NVIDIA i arquitectures de referència amb sistemes NVIDIA DGX.L'alt rendiment i la concurrència de PowerScale compleixen els requisits de rendiment d'emmagatzematge en totes les etapes de l'aprenentatge automàtic, des de l'adquisició i preparació de dades fins a l'entrenament i la inferència del model.Juntament amb el sistema operatiu OneFS, tots els nodes poden funcionar sense problemes dins del mateix clúster impulsat per OneFS, amb funcions a nivell empresarial com ara la gestió del rendiment, la gestió de dades, la seguretat i la protecció de dades, que permeten completar més ràpidament la formació i la validació de models per a les empreses.


Hora de publicació: 03-jul-2023