La série de GPU Instinct d'AMD devient populaire dans la communauté informatique et IA. Voici pourquoi.
Il ne fait aucun doute que NVIDIA continue de dominer l'espace informatique parallèle avec ses différentes séries de GPU populaires. Mais avec les accélérateurs Instinct AI d'AMD équipant deux des plus récents et des plus grands supercalculateurs (Frontier et El Capitan) et le soutien croissant de la communauté pour leur plate-forme ROCm open source, NVIDIA a peut-être trouvé son plus grand rival à ce jour.
Alors, que sont exactement les accélérateurs Instinct AI d'AMD? Qu'est-ce qui les rend puissants et comment se comparent-ils aux GPU Tensor de NVIDIA ?
Qu'est-ce qu'un processeur AMD Instinct?
Les processeurs Instinct d'AMD sont du matériel de niveau entreprise utilisé pour le calcul haute performance (HPC) et le traitement accéléré par l'IA. Contrairement aux GPU classiques grand public, les GPU Instinct sont spécialisés pour mieux gérer l'apprentissage de l'IA et d'autres tâches hautes performances grâce à des innovations logicielles et matérielles.
La série de GPU Instinct d'AMD a été utilisée pour alimenter le premier supercalculateur à briser la barrière Exascale, fonctionnant à 1,1 EFLOP à des opérations de double précision par seconde. Des superordinateurs utilisant des GPU Instinct sont actuellement utilisés pour rechercher des traitements contre le cancer, l'énergie durable et le changement climatique.
Comment les processeurs Instinct accélèrent l'IA et le HPC
Pour les serveurs et supercalculateurs grand public les plus puissants au monde Pour obtenir un traitement de niveau Exascale, les accélérateurs Instinct d'AMD devaient être équipés de plusieurs mises à niveau et innovations technologiques.
Discutons de certaines des technologies nouvelles et mises à jour utilisées sur les GPU AMD Instinct.
1. Calculer l'ADN (CDNA)
Les accélérateurs AMD Instinct récents (à partir du MI100) ont utilisé l'architecture CDNA de l'entreprise.
CDNA se concentre principalement sur des fonctionnalités telles que le traitement parallèle, la hiérarchie de la mémoire et les performances de calcul optimisées grâce à leur technologie Matrix Core. Même le HPC et l'IA ou l'apprentissage automatique qui s'exécutent sur des serveurs uniques peuvent être pris en charge par CDNA, ainsi que par d'énormes ordinateurs Exascale.
La technologie Matrix Core d'AMD accélère l'apprentissage de l'IA en prenant en charge des opérations de précision mixte. La capacité de calculer à différentes précisions permet aux GPU Instinct de calculer efficacement les opérations matricielles en fonction du niveau de précision nécessaire.
Les formats de précision de calcul les plus populaires incluent FP64, FP32, FP16, BF16 et INT8. FP signifie Floating Point, BF pour Brain Floating Point et INT pour Integer. Plus le nombre correspondant au format est élevé, plus le calcul est précis. Le fonctionnement en 64 bits est connu sous le nom de double précision. Avec 32 bits, c'est une simple précision, 16 bits, c'est une demi-précision, etc.
Étant donné qu'une grande partie de la formation de modèles d'apprentissage en profondeur ne nécessite pas beaucoup de précision, avoir la capacité de calculer la matrice les opérations à demi-précision ou même à quart de précision pour l'inférence réduisent considérablement la charge de travail, accélérant ainsi l'IA apprentissage.
2. Mémoire à bande passante élevée (HBM)
Chaque accélérateur AMD Instinct AI est livré avec jusqu'à 880 cœurs matriciels. Avec les processeurs Matrix Core d'AMD capables d'effectuer 383 TFLOP de calculs de demi-précision, il est nécessaire de disposer d'une mémoire ultra-rapide. Les dernières offres Instinct d'AMD sont équipées d'une mémoire à bande passante élevée (HBM) au lieu de la RAM DDR4 ou DDR5 habituelle.
Contrairement à la mémoire conventionnelle, HBM utilise ce que l'on appelle une architecture 3D empilée. Ce type d'architecture fait référence à une approche de conception où les puces DRAM sont empilées verticalement les unes sur les autres. Cela permet aux matrices d'être empilées à la fois sur l'axe vertical et horizontal, d'où le terme d'empilement 3D.
Avec cette technologie d'empilement 3D, les HBM peuvent avoir des capacités de mémoire physique allant jusqu'à quelques centaines de gigaoctets par module, tandis que DRR5 ne peut faire que des dizaines de gigaoctets par module. Outre la capacité, les HBM sont également connus pour avoir des performances plus élevées en termes de taux de transfert et une meilleure efficacité énergétique que la mémoire DDR ordinaire.
3. Tissu infini
Une autre innovation incluse dans les GPU Instinct est la technologie Infinity Fabric d'AMD. Infinity Fabric est un type de système d'interconnexion qui relie les processeurs et les GPU de manière dynamique et intelligente. Cela permet aux composants de communiquer efficacement entre eux.
Avec Infinity Fabric, au lieu de connecter des composants avec un bus régulier, les composants sont désormais connectés dans un réseau maillé où les bandes passantes peuvent atteindre plusieurs centaines de gigaoctets par seconde.
Outre l'interconnexion en forme de maillage, Infinity Fabric utilise également des capteurs intégrés dans chaque matrice pour dynamiquement contrôler la fréquence, les taux de transfert de données et d'autres comportements adaptatifs, optimiser les performances et minimiser latence.
4. Plateforme de développement ROCm
CUDA (compute unified device architecture) de NVIDIA est la plate-forme de développement la plus largement utilisée pour la formation de modèles d'IA. Le problème avec CUDA est qu'il ne fonctionne qu'avec les GPU NVIDIA. C'est l'une des principales raisons pour lesquelles NVIDIA détient l'écrasante majorité des parts de marché des accélérateurs GPU HPC et AI.
AMD souhaitant obtenir une plus grande part du marché du HPC et de l'IA, ils ont dû développer leur propre plate-forme, ROCm (Radeon Open Compute). ROCm est une plate-forme logicielle open source qui permet d'utiliser les GPU Instinct comme accélérateurs d'IA.
Bien qu'il ne fasse pas nécessairement partie du matériel Instinct, le ROCm est fondamental pour la survie de la gamme de GPU Instinct. Avec ROCm, développeurs et les chercheurs obtiennent les outils ROCm, le compilateur, les pilotes du noyau, toute une série de bibliothèques et l'accès à des frameworks comme TensorFlow et PyTorch pour développer avec leur préféré Langage de programmation IA.
Comment les accélérateurs Instinct AI se comparent-ils aux accélérateurs Radeon GPU AI?
AMD propose sa gamme de GPU Instinct pour les entreprises et les GPU Radeon pour les consommateurs réguliers. Comme indiqué précédemment, le GPU Instinct utilise l'architecture CDNA d'AMD, HBM et l'interconnexion Infinity Fabric. À l'inverse, Radeon utilise l'architecture RDNA d'AMD, la mémoire DDR6 et Infinity Cache.
Bien que moins performante, la série Radeon d'accélérateurs d'intelligence artificielle contient toujours un coup de poing mettant en œuvre un ou deux cœurs d'accélérateur d'IA par unité de calcul. Le dernier Carte graphique Radeon RX7900 XT dispose de deux cœurs d'accélérateur AI par unité de calcul, permettant 103 TFLOP de demi-précision maximale et 52 TFLOP de calculs à simple précision maximale.
Alors que la série de GPU Instinct est mieux adaptée aux LLM et au HPC, les accélérateurs Radeon AI peuvent être utilisés pour affiner les modèles pré-formés, l'inférence et les tâches à forte intensité graphique.
AMD Instinct contre. Tenseur NVIDIA
Selon un Sondage TrendForce, NVIDIA détient 80 % de part de marché pour les GPU de serveur, tandis qu'AMD n'en détient que 20 %. Ce succès retentissant de NVIDIA est dû au fait qu'il s'agit d'une entreprise spécialisée dans la conception et l'assemblage de GPU. Cela leur permet de concevoir des GPU nettement plus performants, inégalés par d'autres offres.
Comparons l'Instinct MI205X d'AMD et le H100SXM5 de NVIDIA en utilisant les spécifications de Site officiel d'AMD et Fiche technique de NVIDIA:
Modèle de processeur graphique |
FP64 (TFLOP) |
FP32 (TFLOP) |
FP16 (TFLOP) |
INT8 (TFLOP) |
---|---|---|---|---|
AMD Instinct MI250X |
30.0 |
60.0 |
1000 |
2000 |
NVIDIA H100SXMS |
47.9 |
95.7 |
383.2 |
383 |
Comme vous pouvez le voir dans le tableau, le MI250X d'AMD est plus performant en termes de double précision et de demi-précision calculs, tandis que le H100SXMS de NVIDIA est bien meilleur en termes de matrice demi-précision et quart de précision calculs. Cela rend le MI250X d'AMD mieux adapté au HPC, tandis que le H100SXMS de NVIDIA avec apprentissage et inférence de l'IA.
L'avenir des processeurs Instinct d'AMD
Bien que la dernière offre d'AMD, le MI250X, soit conçue pour le HPC, leur prochain MI300 est davantage axé sur la formation à l'IA. Cet accélérateur d'IA est annoncé comme étant un APU, combinant GPU et CPU dans un seul package. Cela permet au MI300 d'utiliser son architecture APU à mémoire unifiée CNDA3, où le GPU et le CPU n'utiliseront qu'une seule mémoire, augmentant l'efficacité et réduisant le prix.
Bien qu'AMD ne soit pas en concurrence avec NVIDIA sur le marché des accélérateurs d'IA aujourd'hui, une fois que le MI300 sera sorti et que ROCm deviendra polie, la série Instinct d'AMD pourrait bien être assez bonne pour arracher une part importante du marché des accélérateurs d'IA à NVIDIA.