Les GPU Hopper de Nvidia entrent en « pleine production », les DGX retardés jusqu’au premier trimestre


Il y a à peine six mois, l’événement GTC du printemps de Nvidia a vu l’annonce de son architecture GPU Hopper très attendue. Maintenant, le géant du GPU annonce que les GPU de la génération Hopper (qui promettent une plus grande efficacité énergétique, une plus grande puissance et un coût total de possession inférieur) sont en « pleine production » et a divulgué des détails supplémentaires concernant la disponibilité – sur site et dans le cloud – du nouveau matériel .

La version courte: les systèmes partenaires équipés du GPU Nvidia H100 (d’Atos, Cisco, Dell, Fujitsu, Gigabyte, HPE, Lenovo et Supermicro, entre autres) devraient commencer à être expédiés en octobre – un léger glissement par rapport à l’estimation d’expédition de Nvidia au troisième trimestre. annonce du printemps GTC. Les systèmes basés sur PCIe seront disponibles en premier, suivis des plates-formes NVLink HGX plus tard dans l’année. (Nvidia attribue ce retard non pas à la disponibilité des composants, mais plutôt à la complexité de la solution HGX par rapport aux solutions PCIe.) Pendant ce temps, les systèmes DGX équipés du H100 – qui étaient également prévus pour la livraison au troisième trimestre – ont légèrement reculé et sont désormais disponibles. à commander pour une livraison au 1er trimestre 2023.

Le système DGX H100. Image reproduite avec l’aimable autorisation de Nvidia.

Sur ce front, il y a à peine quelques mois, Nvidia a discrètement annoncé que ses nouveaux systèmes DGX utiliseraient les prochains processeurs Sapphire Rapids d’Intel – un changement par rapport aux processeurs AMD Epyc qui alimentaient leurs systèmes de génération précédente (A100). Ces processeurs Sapphire Rapids ont été très retardés par rapport à leur date de livraison initiale prévue (2021) et semblent maintenant être prévus pour une rampe de production au premier trimestre de l’année prochaine. D’autres cibles pour le H100 incluent le prochain processeur Epyc Genoa d’AMD (également prévu pour l’année prochaine) et le propre processeur Grace basé sur Arm de Nvidia (vous l’avez deviné – l’année prochaine). Le H100 est peut-être en « pleine production », mais ses principaux homologues CPU seront en course pour rattraper son retard.

Pourtant, il y aura d’autres façons d’utiliser les nouveaux GPU Hopper. Nvidia a annoncé que le H100 (hébergé dans les serveurs Dell PowerEdge) est désormais disponible sur Nvidia LaunchPad, qui permet aux utilisateurs d’essayer les piles matérielles et logicielles de Nvidia dans un environnement d’essai pratique à court terme. Les H100 se dirigent également vers le cloud, bien sûr, Nvidia annonçant qu’AWS, Google Cloud, Microsoft Azure et Oracle Cloud Infrastructure seront tous « parmi les premiers » à déployer des instances basées sur H100 l’année prochaine.

Sur le front de la recherche, les principaux supercalculateurs prêts à lancer le H100 incluent Alpes (CSCS), MareNostrum 5 (Centre de Supercalcul de Barcelone), Cerf (Los Alamos National Laboratory), le nom provisoire Cygnus-BD système (Université de Tsukuba) et le système déjà opérationnel Lonestar6 système au Texas Advanced Computing Center. Certains de ces systèmes intégreront le H100 via les prochaines puces Grace Hopper de Nvidia, qui comprendront des processeurs Grace et des GPU Hopper étroitement liés.

Les systèmes déployant le H100 bénéficieront d’améliorations drastiques par rapport au déjà populaire A100, qui est devenu de facto la norme de comparaison au cours des dernières années dans un contexte de concurrence féroce et croissante des accélérateurs de géants établis et de startups spécialisées. Le H100, selon Nvidia, fournit 30 téraflops (FP64) de puissance de calcul (comparez : 9,7 pour l’A100) et offre 3,5 fois plus d’efficacité énergétique et 3 fois moins de TCO par rapport à l’A100. (Remarque : la version PCIe du H100 fournit 24 téraflops FP64 au lieu de 30.)

« Nvidia est sur la bonne voie pour faire de Hopper le GPU de centre de données le plus conséquent de tous les temps, en partie à cause de l’amélioration des performances par 5 pour les grands modèles de langage, mais plus encore en raison de l’éventail toujours plus large de logiciels pour l’industrie et l’entreprise », a commenté Karl Freund. , fondateur et analyste principal chez Cambrian AI Research. « Il y a beaucoup d’entreprises qui essaient juste d’égaler les performances de Nvidia ; ils n’ont même pas commencé à aborder la pile logicielle profonde et étendue qui transforme tous ces transistors en solutions.

Selon Freund, Nvidia a également annoncé aujourd’hui qu’elle avait commencé à optimiser les grands modèles de langage et les cadres d’apprentissage en profondeur sur le H100, notamment Microsoft DeepSpeed, Google JAX, PyTorch, TensorFlow, XLA et Le propre NeMo Megatron de Nvidia.