banner

Blog

Aug 28, 2023

Les performances du GPU NVIDIA H100 fracassent les références de l'apprentissage automatique pour la formation de modèles

Nvidia

Le GPU Hopper H100 Tensor Core de NVIDIA a fait sa première apparition dans l'analyse comparative plus tôt cette année dans MLPerf Inference 2.1. Personne n'a été surpris que le H100 et son prédécesseur, l'A100, dominent toutes les charges de travail d'inférence. Le H100 a établi des records du monde dans chacun d'eux et NVIDIA est la seule entreprise à avoir soumis à chaque charge de travail pour chaque cycle MLPerf.

Il y a quelques semaines, un nouvel ensemble de résultats de formation MLCommons a été publié, cette fois pour la formation MLPerf 2.1, que les NVIDIA H100 et A100 ont également dominée.

Malheureusement, la domination de NVIDIA sur les suites d'analyse comparative MLPerf pour l'inférence et la formation a détourné les soumissions et les rapports de nombreuses sociétés d'IA importantes.

L'industrie bénéficierait de la participation d'un plus grand nombre d'organisations, comme nous l'avons vu dans d'autres secteurs comme les processeurs, qui stimulent la concurrence et l'innovation. Une large implication dans les suites d'analyse comparative est importante car l'apprentissage automatique connaît une croissance exponentielle. Presque tous les segments de l'industrie utilisent l'apprentissage automatique pour un large éventail d'applications. À mesure que l'utilisation augmente, la taille du modèle augmente également. Depuis 2018, MLCommons organise des séries de tests qui alternent entre les séries de tests de formation MLPerf et d'inférence MLPerf.

Au cours des quatre années écoulées entre le premier test MLPerf en 2018 et les résultats de cette année, la taille du modèle d'apprentissage automatique a augmenté de cinq ordres de grandeur. Avec l'augmentation de la taille du modèle et des ensembles de données plus volumineux, des outils standardisés tels que MLPerf Training et MLPerf Inference sont plus cruciaux que jamais. Les performances du modèle d'apprentissage automatique doivent être mesurées avant de pouvoir être améliorées.

Repères de formation MLPerf 2.1

Résumé des benchmarks utilisés dans MLPerf Training v2.1 ... [+]

La formation MLPerf et l'inférence MLPerf utilisent les huit mêmes charges de travail indiquées dans le graphique ci-dessus. Mini Go est une exception car il n'est utilisé que pour évaluer l'apprentissage par renforcement. Chaque test de référence est défini par son propre ensemble de données et son objectif de qualité. La clé est le temps qu'il faut pour former le modèle à l'aide de l'ensemble de données spécifié avec l'objectif de qualité spécifié.

MLPerf est vital pour l'IA et l'apprentissage automatique, car il s'agit d'une référence standard de l'industrie avec des résultats d'examen par les pairs qui fournissent des comparaisons valides pour la formation et l'inférence de modèles. Il est pris en charge par Amazon, Arm, Baidu, Google, l'Université de Harvard, Intel, Meta, Microsoft, l'Université de Stanford et l'Université de Toronto.

Plusieurs modèles uniques forment des modèles multiples hautes performances

Les applications d'IA du monde réel utilisent plusieurs modèles

Il est courant que plusieurs modèles d'IA soient enchaînés pour satisfaire une seule entrée. Un exemple de réseaux multimodaux est la demande verbale dans le graphique ci-dessus. La question nécessite dix modèles d'apprentissage automatique pour produire une réponse. Non seulement plusieurs modèles doivent fonctionner de manière séquentielle, mais ils doivent également fournir des solutions en temps réel.

Certains services cloud utilisent également plusieurs réseaux pour fournir des services accélérés par les GPU NVIDIA. Tous les réseaux et frameworks d'applications de NVIDIA sont disponibles sur son référentiel MLPerf, sur NGC (le référentiel de conteneurs en ligne de NVIDIA) et son référentiel GitHub.

Performances d'entraînement de référence A100 et H100

Formation MLPerf v2.1 Performances

Comme le montre le tableau de performances MLPerf Training 2.1, H100 a fourni jusqu'à 6,7 fois plus de performances pour le benchmark BERT par rapport aux performances de l'A100 lors de sa première soumission MLPerf en 2019.

A100 produit toujours des résultats record et des performances élevées avec des performances améliorées jusqu'à 2,5 fois. Ce gain est le résultat d'une optimisation logicielle. Ce sera probablement une offre NVIDIA pendant un certain temps.

Les performances supérieures du H100 sur le modèle BERT NLP sont attribuées à son Transformer Engine. L'A100 n'a pas de moteur d'entraînement. Le nouveau moteur, associé aux cœurs NVIDIA Hopper FP8 Tensor, offre une formation IA jusqu'à 9 fois plus rapide et des accélérations d'inférence IA 30 fois plus rapides sur les grands modèles de langage que l'A100. Le H100 est basé sur l'architecture Hopper et utilise des cœurs de tenseur de quatrième génération.

La vitesse d'entraînement est cruciale et nécessaire en raison de la taille du modèle d'IA. Le moteur de transformation de NVIDIA atteint une vitesse supplémentaire en utilisant une précision en virgule flottante de 16 bits et un nouveau format de données en virgule flottante de 8 bits. Cette combinaison augmente le débit de Tensor Core de 2x et réduit les besoins en mémoire de 2x par rapport à la virgule flottante 16 bits.

Ces améliorations, ainsi que les algorithmes avancés du logiciel Hopper, accélèrent les performances et les capacités de l'IA, permettant au H100 de former des modèles en quelques jours ou heures au lieu de plusieurs mois. Plus un modèle peut être opérationnel rapidement, plus tôt son retour sur investissement peut commencer à contribuer au résultat net.

L'architecture Hopper peut déterminer dynamiquement si des calculs FP8 ou 16 bits sont nécessaires pour la précision. Au fur et à mesure que le moteur du transformateur s'entraîne couche par couche, il analyse les données pour déterminer si une précision réduite doit être utilisée. Selon le degré d'utilisation, une précision réduite peut entraîner des erreurs d'arrondi qui affectent la précision du modèle.

Les tests de formation MLPerf mesurent le temps de résolution, donc un modèle doit non seulement fonctionner rapidement, mais il doit également converger. Par conséquent, il est essentiel de se rappeler que de nombreuses erreurs peuvent empêcher un modèle de converger.

La technologie de moteur de transformateur de NVIDIA a été conçue pour les grands réseaux basés sur des transformateurs comme BERT. Cependant, cela ne se limite pas à la PNL. Il peut être appliqué à d'autres domaines, tels que la diffusion stable.

Stable Diffusion est un modèle de texte à image d'apprentissage en profondeur et à calcul intensif lancé cette année. Il peut générer des images ou des vidéos détaillées conditionnées par des descriptions textuelles. Il peut également être appliqué à des tâches telles que l'inpainting, le outpainting et la génération de traductions d'image à image à l'aide d'une invite de texte.

Il est temps de s'entraîner à grande échelle

Il est temps de s'entraîner à grande échelle ... [+]

NVIDIA A100 était la seule plate-forme à exécuter toutes les charges de travail dans le temps pour s'entraîner à grande échelle. NVIDIA a pu former chaque charge de travail à grande échelle en moins de 5 minutes, à l'exception de Mini Go, qui a pris environ 17 minutes.

Mini Go utilise l'apprentissage par renforcement qui est très gourmand en ressources informatiques. Il faut plus de temps pour former le réseau car il faut jouer à Mini Go tour par tour, puis le faire revenir sur le réseau après chaque tour.

La formation à grande échelle démontre que A100 reste une plate-forme solide pour la formation. H100 est une solution pour les modèles les plus avancés, tels que les modèles de langage avec des ensembles de données massifs et des milliards d'hyperparamètres.

Si Intel et Habana n'ont pas réalisé de performances record, leur participation a néanmoins été importante pour l'écosystème et l'avenir de MLPerf.

H100 établit des records par accélérateur pour la formation à l'IA

Ce graphique montre l'accélération relative par accélérateur normalisée à A100. Le H100 (en avant-première) a été soumis pour chaque référence et a obtenu des performances supérieures pour chacun. Il était 2,6 fois plus rapide que l'A100, qui a fait des gains logiciels importants.

Habana Gaudi2 soumis pour Resnet-50 et BERT, et Sapphire Rapids d'Intel soumis pour DLRM, ResNet-50 et BERT.

Habana Gaudi2 a obtenu des résultats légèrement meilleurs que A100 sur BERT et environ 0,75 mieux que A100 pour ResNet-50. Intel a acquis Habana fin 2019 pour 2 milliards de dollars. Gaudi2 est le processeur d'apprentissage en profondeur de deuxième génération de Habana. Il dispose de 24 cœurs tenseurs et de 96 Go de mémoire.

Dave Salvator, directeur de l'IA, de l'analyse comparative et du cloud pour NVIDIA, s'attend à des performances plus élevées du H100 à l'avenir.

"Le H100 a réalisé une performance très convaincante", a-t-il déclaré. "Mais à l'avenir, nous ferons des gains logiciels avec le H100 comme nous l'avons fait avec l'A100. C'est la première fois que nous soumettons le H100 à la formation, et ce ne sera pas la dernière."

Analyse comparative du calcul intensif HPC MLPerf 2.0

Informations d'analyse comparative pour MLPerf HPC 2.0 ... [+]

MLPerf HPC 2.0 mesure le temps nécessaire pour former des modèles de supercalculateurs pour des applications scientifiques. De plus, il existe une mesure de débit facultative pour les systèmes de calcul intensif multi-utilisateurs. Cette ronde était la troisième itération de MLPerf HPC. Comme MLPerf pour la formation et l'inférence, MLPerf HPC est considéré comme une mesure de performance système standard de l'industrie pour les charges de travail effectuées sur des superordinateurs.

Pour ce tour, cinq des plus grands supercalculateurs du monde ont soumis 20 résultats : Dell (première soumission), Fujitsu/RIKEN, Helmholz AI, NVIDIA et Texas Advanced Computing Center (TACC).

Benchmarks MLPerf HPC v2.0

Il s'agit de la version 2.0 des benchmarks, cependant, il n'y a eu aucun changement majeur depuis que ces trois mêmes charges de travail ont été exécutées en 1.0. Les benchmarks MLPerf HPC mesurent le temps et le débit de formation pour trois simulations hautes performances qui ont adopté des techniques d'apprentissage automatique - Cosmoflow, DeepCAM et OpenCatalyst.

En raison du changement climatique, de nombreux travaux concentrés sont en cours sur la modélisation du temps et du climat. NVIDIA travaille également sur un jumeau numérique de la planète appelé Earth Two. Ce modèle climatique géant simule le monde entier.

Leadership en matière de performances de la plate-forme NVIDIA HPC

Nvidia

MLPerf HPC 2.0 a deux métriques de performances :

Bien que le GPU NVIDIA A100 Tensor Core et le SuperPOD NVIDIA DGX-A100 aient presque trois ans, les performances de MLPerf 2.0 montrent que l'A100 est toujours le système le plus performant pour la formation des cas d'utilisation HPC.

Les résultats HPC concernent NVIDIA Selene, une implémentation du DGX SuperPOD et démontrent le potentiel de l'A100. D'autres sites de supercalcul utilisant la technologie NVIDIA délivrent également de bonnes performances.

Emballer

Il est important de mentionner que NVIDIA était la seule organisation à exécuter toutes les charges de travail de formation IA pour cette formation et toutes les séries précédentes de formation et d'inférence MLPerf. Il a fourni des résultats de leadership cohérents depuis la première formation MLPerf 0.5 en décembre 2018 jusqu'à la dernière formation MLPerf 2.1 publiée il y a quelques semaines.

Pour la formation, l'inférence et le HPC, MLPerf a prouvé que NVIDIA dispose du support d'écosystème le plus large pour tous les frameworks d'apprentissage en profondeur. Il est avantageux pour les clients que les GPU NVIDIA soient disponibles auprès de tous les principaux fournisseurs de cloud et de tous les principaux systèmes pour les solutions sur site. Ces cadres d'application permettent aux clients de déployer rapidement des solutions.

NVIDIA dispose d'une plate-forme ouverte de bout en bout avec un logiciel qui permet d'étendre le plein potentiel de son matériel. La solution complète de NVIDIA comprend des cadres d'application tels que Merlin et Nemo. Avec le service Nemo Megatron, il est possible d'exploiter d'énormes modèles de langage à l'aide d'ensembles de données personnalisés.

NOTES DES ANALYSTES

Moor Insights & Strategy, comme toutes les sociétés d'analyse de l'industrie de la recherche et de la technologie, fournit ou a fourni des services payants aux entreprises technologiques. Ces services comprennent la recherche, l'analyse, le conseil, le conseil, l'analyse comparative, le jumelage d'acquisitions et le parrainage de conférences. La société a eu ou a actuellement des relations commerciales rémunérées avec 8×8, Accenture, A10 Networks, Advanced Micro Devices, Amazon, Amazon Web Services, Ambient Scientific, Anuta Networks, Applied Brain Research, Applied Micro, Apstra, Arm, Aruba Networks (maintenant HPE), Atom Computing, AT&T, Aura, Automation Anywhere, AWS, A-10 Strategies, Bitfusion, Blaize, Box, Broadcom, C3.AI, Calix, Campfire, Cisco Systems, Clear Software, Cloudera, Clumio, Cognitive Systems, CompuCom, Cradlepoint, CyberArk, Dell, Dell EMC, Dell Technologies, Diablo Technologies, Dialogue Group, Digital Optics, Dreamium Labs, D-Wave, Echelon, Ericsson, Extreme Networks, Five9, Flex, Foundries.io, Foxconn, Frame (maintenant VMware), Fujitsu, Gen Z Consortium, Glue Networks, GlobalFoundries, Revolve (maintenant Google), Google Cloud, Graphcore, Groq, Hire genics, Hotwire Global, HP Inc., Hewlett Packard Enterprise, Honeywell, Huawei Technologies, IBM, Infinidat, Infosys, Inseego, IonQ, IonVR, Inseego, Infosys, Infiot, Intel, Interdigital, Jabil Circuit, Keysight, Konica Minolta, Lattice Semiconductor, Lenovo, Linux Foundation, Lightbits Labs, LogicMonitor, Luminar, MapBox, Marvell Technology, Mavenir, Marseille Inc, Mayfair Equity, Meraki (Cisco), Merck KGaA, Mesophere, Micron Technology, Microsoft, MiTEL, Mojo Networks, MongoDB, MulteFire Alliance, National Instruments, Neat, NetApp, Nightwatch, NOKIA (Alcatel-Lucent), Nortek, Novumind, NVIDIA, Nutanix, Nuvia (maintenant Qualcomm), onsemi, ONUG, OpenStack Foundation, Oracle, Palo Alto Networks, Panasas, Peraso, Pexip, Pixel Works, Plume Design, PlusAI, Poly (anciennement Plantronics), Portworx, Pure Storage, Qualcomm, Quantinuum, Rackspace, Rambus, Rayvolt E-Bikes, Red Hat, Renesas, Residio, Samsung Electronics, Samsung Semi, SAP, SAS, Scale Computing, Schneider Electric, SiFive, Silver Peak (maintenant Aruba-HPE), SkyWorks, SONY Optical Storage, Splunk, Springpath (maintenant Cisco), Spirent, Splunk, Sprint (maintenant T-Mobile ), Stratus Technologies, Symantec, Synaptics, Syniverse, Synopsys, Tanium, Telesign, TE Connectivity, TensTorrent, Tobii Technology, Teradata, T-Mobile, Treasure Data, Twitter, Unity Technologies, UiPath, Verizon Communications, VAST Data, Ventana Micro Systems, Vidyo, VMware, Wave Computing, Wellsmith, Xilinx, Zayo, Zebra, Zedda, Zendesk, Zoho, Zoom et Zscaler. Patrick Moorhead, fondateur, PDG et analyste en chef de Moor Insights & Strategy, est un investisseur dans dMY Technology Group Inc. VI, Dreamium Labs, Groq, Luminar Technologies, MemryX et Movandi.

Patrick Moorhead, fondateur, PDG et analyste en chef de Moor Insights & Strategy, est un investisseur dans dMY Technology Group Inc. VI, Dreamium Labs, Groq, Luminar Technologies, MemryX et Movand

Remarque : les rédacteurs et éditeurs de Moor Insights & Strategy peuvent avoir contribué à cet article.

Références de formation MLPerf 2.1 Plusieurs modèles uniques forment de hautes performances, plusieurs modèles Performances de formation de référence A100 et H100 Temps de formation à grande échelle Analyse comparative de supercalcul HPC MLPerf 2.0 Leadership en matière de performances de la plate-forme NVIDIA HPC Conclusion NOTES DES ANALYSTES
PARTAGER