NVIDIA et Supermicro sur la pile technologique gen AI essentielle au succès

NVIDIA et Supermicro sur la pile technologique gen AI essentielle au succès

Présenté par Supermicro et NVIDIA

L’IA générative offre un réel retour sur investissement, mais consomme également une énorme quantité de calcul et de ressources. Dans cet événement VB Spotlight, les dirigeants de NVIDIA et Supermicro expliquent comment identifier les cas d’utilisation critiques et créer la plate-forme prête pour l’IA, essentielle au succès.

Regardez gratuitement à la demande maintenant.

L’IA générative pourrait ajouter l’équivalent de 2 600 milliards à 4 400 milliards de dollars par an dans tous les secteurs. Mais elle est également gourmande en ressources, consommant exponentiellement plus de calcul, de ressources, de réseau et de stockage que n’importe quelle technologie antérieure. L’accès et le traitement des données, la personnalisation des modèles pré-entraînés et leur exécution optimale et à grande échelle nécessitent une pile matérielle et logicielle complète prête pour l’IA, ainsi qu’une nouvelle expertise technique.

Anthony Larijani, responsable senior du marketing produit chez NVIDIA, et Yusuke Kondo, responsable senior du marketing produit chez Supermicro, se sont entretenus avec Luis Ceze, co-fondateur et PDG d’OctoML sur la façon de déterminer les avantages de l’IA générative pour une organisation, et comment expérimenter son utilisation. cas, et la technologie essentielle pour soutenir une stratégie d’IA de génération.

Décisions en matière d’infrastructure et considérations liées à la charge de travail

Faire correspondre les besoins aux infrastructures est la première exigence majeure, dit Larijani.

« La façon de procéder est de commencer par l’objectif final en tête », explique-t-il. « Essayez de visualiser à quoi vous imaginez que cette infrastructure sera utilisée, comment vous voyez les types de charges de travail qui y sont exécutées. S’il s’agit par exemple de former un modèle fondamental à très grande échelle, les exigences informatiques seront différentes de celles d’une application d’inférence qui doit fournir des performances en temps réel à un grand nombre d’utilisateurs.

C’est là que l’évolutivité entre également en jeu. Non seulement vous devez évaluer la charge de travail du modèle, mais vous devez également anticiper le type de demande sur l’application que vous exécutez. Cela recoupe d’autres considérations concernant les types de charges de travail d’inférence que vous exécuterez, qu’il s’agisse d’un cas d’utilisation de type batch ou d’un cas d’utilisation en temps réel, comme un chatbot.

Considérations cloud ou sur site

Les applications Gen AI nécessitent généralement de l’évolutivité, ce qui signifie que la prise en compte du cloud par rapport au sur site entre dans la conversation. Kondo explique que cela dépend clairement du cas d’utilisation et de l’échelle requise, mais il s’agit toujours d’une décision critique et fondamentale.

Lire aussi  Un bref aperçu du nouveau processeur mainframe Telum 7 nm d'IBM

« En utilisant le cloud, vous bénéficiez évidemment de plus d’élasticité et de couverture. Lorsque vous avez besoin d’évoluer, vous pouvez simplement le faire », dit-il. « Lorsque vous optez pour le sur site, vous devez le planifier et prévoir comment vous allez évoluer avant de décider vous-même du montant que vous devez investir dans le calcul. Cela va nécessiter un coût initial important.

Mais l’IA générative introduit également un tout nouveau niveau de considérations en matière de confidentialité des données, en particulier lors de l’introduction de données dans une API publique comme ChatGPT, ainsi que des problèmes de contrôle : souhaitez-vous contrôler la charge de travail de bout en bout, ou exploitez-vous simplement suffisamment l’API ? Et puis, bien sûr, il y a le coût, qui dépend de l’endroit où vous en êtes dans votre parcours d’IA générative : vous commencez tout juste par quelques petites expériences ou vous êtes impatient de commencer à évoluer.

« Vous devez juger de la taille du projet que vous envisagez. Est-il judicieux d’utiliser uniquement le cloud GPU ? » il dit. « C’est ce que nous prévoyons, le coût diminue, tandis que la capacité de calcul ne fait qu’augmenter. Est-il logique, compte tenu du prix actuel de l’infrastructure, d’utiliser uniquement des instances cloud GPU ? Au lieu de dépenser beaucoup d’argent pour votre propre infrastructure d’IA, vous souhaiterez peut-être la tester à l’aide du cloud GPU.

Modèles open source versus modèles propriétaires

Il existe actuellement une tendance vers des modèles spécialisés à plus petite échelle, plus personnalisés et destinés aux déploiements dans tous les cas d’utilisation au sein de l’entreprise, explique Larijani. Grâce à des techniques telles que la génération augmentée par récupération, des moyens efficaces de tirer parti des LLM capables d’utiliser des données propriétaires apparaissent – ​​et cela a un impact direct sur le choix de l’infrastructure. Ces modèles spécialisés impliquent moins d’exigences de formation.

« Le fait de ne recycler qu’une partie de ce modèle applicable à votre cas d’utilisation réduit le temps et le coût de la formation », explique-t-il. « Cela permet aux clients de réserver les types de ressources qui sont prohibitifs du point de vue des coûts pour les charges de travail qui nécessitent réellement ce type de performances, et leur permet de profiter de solutions plus rentables pour exécuter ces types de charges de travail. »

Comment dimensionner le modèle en fonction de vos besoins, que vous soyez open source ou propriétaire ?

Lire aussi  Qui a peur de la ligne de transmission Southern Spirit de 300 milles ?

« Cela revient à affiner les modèles fondamentaux dans un état plus spécialisé, si vous utilisez des modèles open source », explique Kondo. « Cela va affecter l’optimisation de vos coûts et l’optimisation de l’utilisation de votre infrastructure de GPU. Vous ne voulez pas gaspiller ce dans quoi vous avez investi.

Maximiser le matériel avec votre pile logicielle

Tirer le meilleur parti du matériel que vous choisissez signifie également une pile logicielle système complexe jusqu’au bout.

« Il ne s’agit pas seulement d’un seul niveau : il y a l’échelle du rack, puis la mise en œuvre au niveau du cluster », explique Kondo. « Lorsqu’il s’agit d’une infrastructure à grande échelle, c’est évidemment bien plus compliqué que de simplement exécuter un modèle open source avec un seul système. Souvent, ce que nous constatons, c’est que nous impliquons les experts en la matière de NVIDIA dès les premières étapes, même dans la conception des racks, la conception du cluster sur la base des bibliothèques logicielles et de l’architecture que NVIDIA a mises en place. Nous concevons les racks en fonction de leurs exigences, en travaillant en étroite collaboration avec NVIDIA pour établir la solution adaptée aux clients.

Construire une pile logicielle d’IA complète est une entreprise complexe et gourmande en ressources, ajoute Larijani, c’est pourquoi NVIDIA a investi pour devenir une entreprise informatique full-stack, de l’infrastructure aux logiciels qui s’exécutent dessus. Par exemple, le framework Nemo, qui fait partie de la plateforme d’entreprise NVIDIA AI, offre une solution de bout en bout pour aider les clients à créer, personnaliser et déployer une gamme de modèles et d’applications d’IA génératives. Il peut aider à optimiser le processus de formation des modèles et à allouer efficacement les ressources GPU sur des dizaines de milliers de nœuds. Et une fois les modèles formés, il peut les personnaliser, en s’adaptant à une variété de tâches dans des domaines spécifiques.

« Lorsqu’une entreprise est prête à déployer cela à grande échelle, le framework Nemo s’intègre aux outils familiers que beaucoup de nos clients utilisent et connaissent, comme notre serveur d’inférence Triton », ajoute-t-il. “Le compilateur optimisé pour aider nos clients à déployer efficacement avec un débit élevé et une faible latence, tout est également réalisé via la même plate-forme familière, et tout est optimisé pour fonctionner parfaitement sur les systèmes Supermicro certifiés NVIDIA.”

Une pérennité face à la complexité croissante des LLM

Les LLM grossissent chaque jour, dit Kondo, et cette croissance ne semble pas ralentir. Le plus gros problème est la durabilité – et les besoins en énergie de ces serveurs sont préoccupants.

Lire aussi  Étonnamment, cette application est à l'origine de près de 50 % des logiciels malveillants macOS - supprimez-la maintenant

« Si vous regardez le HGXH100, c’est 700 watts par GPU, je crois. Nous nous attendons à ce que cela atteigne à terme 1 000 watts par GPU », dit-il. « Quand on compare cela à il y a 10 ans, c’est fou. Comment pouvons-nous résoudre ce problème ? C’est l’une des raisons pour lesquelles nous travaillons sur notre solution intégrée entièrement refroidie par liquide. En termes de consommation d’énergie, l’infrastructure de refroidissement liquide à elle seule vous permettra d’économiser plus de 40 % d’énergie. L’informatique verte est l’une de nos initiatives, et nous sommes convaincus que cela va faciliter notre innovation.

Parallèlement, l’efficacité continue en termes de développement de logiciels pour optimiser les déploiements, qu’il s’agisse de modèles de formation ou de services d’inférence aux clients. De nouvelles techniques émergent pour aider les organisations à tirer parti de ces capacités de manière rentable et durable, explique Larijani.

« Certes, nous constatons qu’il existe un besoin croissant de systèmes plus optimisés et hautement performants pour former ces types de modèles, mais nous voyons émerger de nouvelles méthodes pour y accéder et les mettre en œuvre », dit-il. « Chaque semaine, nous voyons un nouveau cas d’utilisation de l’IA. Il se passe certainement une foule de choses intéressantes dans l’espace. Nous travaillerons également à les optimiser et à les rendre plus efficaces du point de vue logiciel.

Pour en savoir plus sur la façon dont les organisations peuvent maximiser leurs investissements en IA générative et créer une pile technologique positionnée pour réussir, ne manquez pas cet événement VB Spotlight !

Regardez gratuitement à la demande ici.

Ordre du jour

  • Identifiez les cas d’utilisation pour l’entreprise et ce qui est nécessaire pour réussir
  • Comment exploiter les modèles existants et les données internes pour des solutions personnalisées
  • Comment l’informatique accélérée peut améliorer les délais d’obtention des résultats et la prise de décision commerciale
  • Comment optimiser votre infrastructure et votre architecture en termes de vitesse, de coût et de performances
  • Quelles solutions matérielles et logicielles conviennent à vos charges de travail

Présentateurs

  • Yusuke KondoResponsable marketing produit senior, Supermicro
  • Anthony Larijaniresponsable marketing produit senior, NVIDIA
  • Luis Cèze, co-fondateur et PDG, OctoML ; Professeur, Université de Washington (Modérateur)

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Recent News

Editor's Pick