Exigences de stockage pour l’IA, le ML et l’analyse en 2022

Exigences de stockage pour l’IA, le ML et l’analyse en 2022

L’intelligence artificielle (IA) et l’apprentissage automatique (ML) promettent de transformer des pans entiers de l’économie et de la société, s’ils ne le font pas déjà. Des voitures sans conducteur aux “bots” de service client, les systèmes basés sur l’IA et le ML sont à l’origine de la prochaine vague d’automatisation des entreprises.

Ils sont aussi de gros consommateurs de données. Après une dizaine d’années de croissance relativement régulière, les données utilisées par les modèles d’IA et de ML ont augmenté de façon exponentielle alors que les scientifiques et les ingénieurs s’efforcent d’améliorer la précision de leurs systèmes. Cela impose des exigences nouvelles et parfois extrêmes aux systèmes informatiques, y compris au stockage.

L’IA, le ML et l’analyse nécessitent de gros volumes de données, principalement dans des formats non structurés. “Tous ces environnements exploitent de grandes quantités de données non structurées”, déclare Patrick Smith, CTO de terrain pour l’Europe, le Moyen-Orient et l’Afrique (EMEA) chez le fournisseur Pure Storage. “C’est un monde de données non structurées, pas de blocs ou de bases de données.”

La formation des modèles d’IA et de ML, en particulier, utilise des ensembles de données plus volumineux pour des prédictions plus précises. Comme le souligne Vibin Vijay, spécialiste de l’IA et du ML chez OCF, un modèle de preuve de concept de base sur un seul serveur peut s’attendre à être précis à 80 %.

Avec une formation sur un cluster de serveurs, cela passera à une précision de 98% voire 99,99%. Mais cela impose ses propres exigences à l’infrastructure informatique. Presque tous les développeurs partent du principe que plus de données, c’est mieux, en particulier dans la phase de formation. “Cela se traduit par des collections massives, au moins des pétaoctets, de données que l’organisation est obligée de gérer”, déclare Scott Baker, CMO chez IBM Storage.

Les systèmes de stockage peuvent devenir un goulot d’étranglement. Les dernières applications d’analyse avancées font un usage intensif des CPU et surtout des clusters GPU, connectés via une technologie telle que Nvidia InfiniBand. Les développeurs envisagent même de connecter le stockage directement aux GPU.

“Dans les charges de travail d’IA et de ML, la phase d’apprentissage utilise généralement des GPU puissants qui sont chers et très demandés”, déclare Brad King, co-fondateur et CTO sur le terrain chez le fournisseur Scality. « Ils peuvent parcourir d’énormes volumes de données et peuvent souvent attendre sans rien faire pour plus de données en raison des limitations de stockage.

Lire aussi  Revue Vengeance: un mystère de meurtre intelligent et drôle

« Les volumes de données sont généralement importants. Grand est un terme relatif, bien sûr, mais en général, pour extraire des informations utilisables à partir de données, plus les données disponibles sont pertinentes, meilleures sont les informations.

Le défi consiste à fournir un stockage hautes performances à grande échelle et dans les limites du budget. Comme le souligne Vijay d’OCF, les concepteurs peuvent vouloir tout le stockage sur une mémoire flash de niveau 0 hautes performances, mais cela est rarement, voire jamais, pratique. Et en raison du fonctionnement de l’IA et du ML, en particulier dans les phases de formation, cela pourrait ne pas être nécessaire.

Au lieu de cela, les organisations déploient un stockage hiérarchisé, déplaçant les données vers le haut et vers le bas à travers les niveaux, du flash au cloud et même à la bande. « Vous recherchez les bonnes données, au bon endroit, au bon coût », déclare Vijay.

Les entreprises doivent également penser à la conservation des données. Les scientifiques des données ne peuvent pas prédire quelles informations sont nécessaires pour les futurs modèles, et les analyses s’améliorent avec l’accès aux données historiques. L’archivage des données rentable et à long terme reste important.

Quels types de stockage sont les meilleurs ?

Il n’existe pas d’option unique qui réponde à tous les besoins de stockage pour l’IA, le ML et l’analyse. L’idée conventionnelle selon laquelle l’analyse est une charge de travail à haut débit et à E/S élevée la mieux adaptée au stockage de blocs doit être mise en balance avec les volumes de données, les types de données, la vitesse de prise de décision et, bien sûr, les budgets. Un environnement de formation à l’IA impose des exigences différentes à un moteur de recommandation basé sur le Web fonctionnant en temps réel.

« Le stockage par blocs est traditionnellement bien adapté aux charges de travail à haut débit et à E/S élevées, où une faible latence est importante », déclare Tom Christensen, conseiller technologique mondial chez Hitachi Vantara. “Cependant, avec l’avènement des charges de travail modernes d’analyse de données, y compris l’IA, le ML et même les lacs de données, les plates-formes traditionnelles basées sur des blocs se sont avérées incapables de répondre à la demande d’évolution que crée le côté informatique de ces plates-formes. En tant que tel, une approche basée sur les fichiers et les objets doit être adoptée pour prendre en charge ces charges de travail modernes.

Lire aussi  Les ingénieurs enveloppent des bâtiments entiers dans des vestes qui économisent de l'énergie

Stockage à accès bloqué

Les systèmes basés sur des blocs conservent l’avantage des performances brutes et prennent en charge la centralisation des données et les fonctionnalités avancées. Selon Scott Baker d’IBM, les baies de stockage de blocs prennent en charge les interfaces de programmation d’applications (API) que les développeurs d’IA et de ML peuvent utiliser pour améliorer les opérations répétées ou même décharger le traitement spécifique au stockage pour la baie. Il serait erroné d’exclure complètement le stockage par blocs, en particulier lorsque le besoin est d’IOPS élevées et d’une faible latence.

Face à cela, il est nécessaire de créer des réseaux de stockage spécifiques pour le stockage par blocs – généralement Fibre Channel – et les frais généraux qui accompagnent le stockage par blocs reposant sur un système de fichiers hors baie (basé sur l’hôte). Comme le souligne Baker, cela devient encore plus difficile si un système d’IA utilise plus d’un système d’exploitation.

Fichier et objet

Par conséquent, les architectes système privilégient le stockage basé sur des fichiers ou des objets pour l’IA et le ML. Le stockage d’objets est conçu avec une grande capacité de pétaoctets à l’esprit et est conçu pour évoluer. Il est également conçu pour prendre en charge des applications telles que l’Internet des objets (IoT).

Le codage d’effacement assure la protection des données, et la prise en charge avancée des métadonnées dans les systèmes d’objets peut bénéficier aux applications d’IA et de ML.

Par contre, le stockage d’objets est à la traîne des systèmes de blocs en termes de performances, bien que l’écart se comble avec les nouvelles technologies d’objets hautes performances. Et la prise en charge des applications varie, tous les outils d’IA, de ML ou d’analyse ne prenant pas en charge l’interface S3 d’AWS, la norme de facto pour les objets.

Stockage en ligne

Le stockage dans le cloud est en grande partie basé sur des objets, mais offre d’autres avantages pour les projets d’IA et de ML. Les principaux d’entre eux sont la flexibilité et les faibles coûts initiaux.

Les principaux inconvénients du stockage dans le cloud sont la latence et les coûts potentiels de sortie des données. Le stockage dans le cloud est un bon choix pour les systèmes d’IA et de ML basés sur le cloud, mais il est plus difficile de justifier où les données doivent être extraites et chargées sur des serveurs locaux pour le traitement, car cela augmente les coûts. Mais le cloud est économique pour l’archivage de données à long terme.

Lire aussi  Qualcomm revient sur le marché des CPU pour serveurs avec l'acquisition de Nuvia

Que recommandent les fournisseurs de stockage ?

Sans surprise, les fournisseurs ne recommandent pas une solution unique pour l’IA, le ML ou l’analytique – le nombre d’applications est trop large. Au lieu de cela, ils recommandent d’examiner les exigences commerciales derrière le projet, ainsi que de se tourner vers l’avenir.

« Comprendre les résultats ou l’objectif commercial dont vous avez besoin doit toujours être votre première pensée lorsque vous choisissez comment gérer et stocker vos données », déclare Paul Brook, directeur de l’analyse des données et de l’IA pour la région EMEA chez Dell. “Parfois, les mêmes données peuvent être nécessaires à différentes occasions et à des fins différentes.”

Brook souligne la convergence entre le stockage de blocs et de fichiers dans des appareils uniques et les systèmes qui peuvent combler le fossé entre le stockage de fichiers et d’objets via un système de fichiers unique. Cela aidera les développeurs d’IA et de ML en fournissant une architecture de stockage plus commune.

HPE, par exemple, recommande des options sur site, cloud et hybrides pour l’IA, et voit une convergence entre l’IA et le calcul haute performance. NetApp fait la promotion de son système de stockage 100 % flash connecté au cloud ONTAP pour l’IA.

Chez Cloudian, le CTO Gary Ogasawara s’attend à voir une convergence entre le traitement par lots hautes performances de l’entrepôt de données et les architectures de traitement des données en continu. Cela poussera les utilisateurs vers des solutions objets.

“Le stockage de blocs et de fichiers a des limitations architecturales qui rendent la mise à l’échelle au-delà d’un certain point prohibitive”, dit-il. « Le stockage d’objets offre une évolutivité illimitée et très rentable. Les capacités de métadonnées avancées du stockage d’objets sont un autre avantage clé dans la prise en charge des charges de travail AI/ML.

Il est également essentiel de planifier le stockage dès le départ, car sans stockage adéquat, les performances du projet en pâtiront.

“Afin d’implémenter avec succès des charges de travail avancées d’IA et de ML, une stratégie de stockage appropriée est aussi importante que la plate-forme de calcul avancée que vous choisissez”, déclare Christensen d’Hitachi Vantara. “La sous-alimentation d’une plate-forme de calcul distribuée complexe et très coûteuse entraînera des résultats moins performants, une diminution de la qualité de vos résultats et, en fin de compte, une réduction du délai de rentabilisation.”

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Recent News

Editor's Pick