Unité de traitement graphique (Graphics processing unit)

Une unité de traitement graphique ( GPU ) est un circuit électronique spécialisé conçu pour le traitement d'images numériques et pour accélérer l'infographie, étant présent…

Une unité de traitement graphique (GPU) représente un circuit électronique spécialisé conçu pour le traitement des images numériques et l'accélération de l'infographie. Ces unités sont intégrées soit sous forme de composants discrets sur des cartes graphiques, soit dans des cartes mères, des téléphones mobiles, des ordinateurs personnels, des postes de travail et des consoles de jeux. En outre, les GPU sont de plus en plus utilisés dans le traitement de l'intelligence artificielle (IA), tirant parti de leurs capacités d'accélération de l'algèbre linéaire, une technique également fondamentale pour le traitement graphique.

Bien qu'une définition unique du terme reste insaisissable et qu'il puisse largement englober n'importe quel système d'affichage vidéo, l'usage contemporain définit un GPU comme possédant la capacité de calcul interne pour diverses opérations graphiques, telles que la rotation et la mise à l'échelle des images 3D. Souvent, les GPU prennent également en charge l'exécution de programmes personnalisés appelés shaders. Cette fonctionnalité les distingue des contrôleurs graphiques précédents, en particulier des contrôleurs d'affichage vidéo, qui manquaient de capacités de calcul internes, et des blitters, qui étaient limités aux opérations fondamentales de transfert de mémoire. Le GPU moderne a évolué dans les années 1990, intégrant initialement la capacité de restituer des lignes et du texte indépendamment de l'unité centrale de traitement (CPU), puis intégrant des capacités 3D.

L'indépendance inhérente des fonctions graphiques facilite leur mise en œuvre sur des moteurs de calcul distincts. Les GPU contemporains intègrent des centaines, voire des milliers d'unités de traitement. Cette architecture parallèle les rend très efficaces pour les calculs non graphiques impliquant des problèmes parallèles embarrassants. La capacité des GPU à exécuter rapidement une multitude de calculs a conduit à leur intégration dans divers domaines, notamment l'intelligence artificielle (IA), où ils démontrent des performances exceptionnelles dans la gestion de tâches gourmandes en données et rigoureuses en termes de calcul. Des applications non graphiques supplémentaires incluent la formation sur les réseaux neuronaux et l'extraction de cryptomonnaie.

Historique

Années 1960

Les origines du matériel graphique 3D dédié remontent aux terminaux graphiques comme l'Adage AGT-30, introduit en 1967, qui comportait des processeurs matriciels analogiques. En 1969, Evans & Sutherland (E&S) a dévoilé le Line Drawing System-1 (LDS-1), remarquable comme le premier système entièrement numérique capable de multiplication matricielle. Parallèlement, en 1969, l'IMLAC PDS-1, un terminal graphique économique, a été lancé. Ce système a ensuite servi de première plate-forme pour les jeux 3D, illustrés par des titres tels que Maze War.

Années 1970

Dans le domaine du matériel professionnel, le système PLATO IV a commencé ses opérations à l'Université de l'Illinois à Urbana-Champaign en 1972. Entre 1973 et 1978 environ, les utilisateurs de ce système ont développé et popularisé plusieurs jeux 3D filaires multijoueurs en réseau. Également en 1972, le système « Watkins box » E&S Continu Tone 1 (CT1), comprenant un E&S LDS-2 et un système d'image ombrée, a été déployé à la Case Western Reserve University, introduisant le premier ombrage Gouraud en temps réel. En 1975, une collaboration entre Evans & Sutherland Computer Corporation et le département d'infographie de l'Université de l'Utah ont mis au point le framebuffer vidéo MOSFET pionnier, qui prend en charge les couleurs et les ombres fluides. Le système E&S Continu Tone 3 (CT3), livré à Lufthansa en 1977 pour la formation des pilotes via simulation informatique, représentait le premier système graphique capable de cartographier des textures en temps réel. À la fin des années 1970, Ikonas a produit des systèmes graphiques dotés de graphiques 8 bits et 24 bits ainsi que d'une accélération 3D.

Depuis les années 1970, les cartes système d'arcade intègrent des circuits graphiques 2D spécialisés. Dans les premiers stades du matériel de jeu vidéo, le coût élevé de la RAM pour les tampons d'images nécessitait que les puces vidéo composent les données pendant le processus de numérisation de l'affichage sur le moniteur.

Un circuit de changement de vitesse dédié a facilité l'animation des graphiques du framebuffer du processeur pour de nombreux jeux vidéo d'arcade des années 1970 développés par Midway et Taito, notamment Gun Fight (1975), Sea Wolf (1976) et Space Invaders (1978). En 1979, le système d'arcade Namco Galaxian intégrait du matériel graphique spécialisé prenant en charge les couleurs RVB, les sprites multicolores et les arrière-plans de tuiles. Le matériel Galaxian a été largement adopté au cours de l'âge d'or des jeux vidéo d'arcade, utilisé par des sociétés de premier plan telles que Namco, Centuri, Gremlin, Irem, Konami, Midway, Nichibutsu, Sega et Taito.

En 1977, la console Atari 2600 utilisait un sélecteur vidéo connu sous le nom d'adaptateur d'interface de télévision. Par la suite, les ordinateurs Atari 8 bits, introduits en 1979, incorporaient ANTIC, un processeur vidéo dédié. ANTIC a interprété une « liste d'affichage », qui définissait la façon dont les lignes de balayage étaient mappées à des modes bitmap ou caractères spécifiques et gérait le stockage en mémoire, éliminant ainsi la nécessité d'un tampon de trame contigu. De plus, ce processeur a permis l'exécution de 6 502 sous-programmes de code machine sur des lignes de balayage spécifiques en activant un bit désigné dans une instruction de liste d'affichage. ANTIC a également facilité un défilement vertical et horizontal indépendant, libéré de la charge de l'unité centrale.

Les années 1980

Les années 1980 ont été caractérisées par des progrès substantiels dans le domaine du matériel graphique 3D professionnel. Un développement particulièrement crucial a été la création en 1981 du moteur de géométrie, un circuit intégré spécifique à une application (ASIC) de processeur vectoriel à intégration à très grande échelle (VLSI), conçu par Jim Clark et Marc Hannah de l'Université de Stanford. Ce processeur est reconnu comme un précurseur des cœurs tenseurs contemporains et des processeurs analogues utilisés dans les applications graphiques et d'intelligence artificielle. Le moteur de géométrie a ensuite été intégré aux postes de travail Silicon Graphics pendant une période prolongée. Le produit inaugural de Silicon Graphics, le terminal IRIS 1000, expédié en novembre 1983, présentait des graphiques 3D à accélération matérielle alimentés par le moteur de géométrie. Ce processeur innovant a démontré une capacité de traitement d'environ 6 millions d'opérations par seconde.

Le NEC μPD7220 représentait la mise en œuvre inaugurale d'un processeur d'affichage graphique pour ordinateur personnel sous la forme d'une seule puce de circuit intégré à intégration à grande échelle (LSI). Cette innovation a facilité le développement de cartes graphiques vidéo rentables et hautes performances, illustrées par celles de Number Nine Visual Technology. Il est devenu l'unité de traitement graphique (GPU) la plus reconnue jusqu'au milieu des années 1980. En tant que premier processeur d'affichage graphique métal-oxyde-semi-conducteur (NMOS) entièrement intégré à intégration à très grande échelle (VLSI) pour ordinateurs personnels, il prenait en charge des résolutions allant jusqu'à 1024 × 1024 et a jeté les bases du marché graphique pour PC. Le μPD7220 a été incorporé dans de nombreuses cartes graphiques et a ensuite obtenu une licence pour des conceptions compatibles, notamment l'Intel 82720, qui a marqué la première incursion d'Intel dans les unités de traitement graphique. Parallèlement, les jeux d'arcade Williams Electronics de 1982, Robotron : 2084, Joust, Sinistar et Bubbles, comportaient chacun des puces Blitter personnalisées conçues pour manipuler des bitmaps de 16 couleurs.

En 1984, Hitachi a présenté l'ARTC HD63484, qui est devenu le premier complément complémentaire important. Processeur graphique Metal-Oxide-Semiconductor (CMOS) pour ordinateurs personnels. L'ARTC était capable de restituer des résolutions jusqu'à 4K lorsqu'il fonctionnait en mode monochrome. Il a été largement adopté dans diverses cartes graphiques et terminaux à la fin des années 1980.

L'Amiga, lancé en 1985, a fait ses débuts avec une puce graphique propriétaire nommée Agnus. Cette puce incorporait un blitter, qui facilitait la manipulation des bitmaps, le dessin des lignes et les opérations de remplissage de zones. De plus, Agnus comportait un coprocesseur équipé de son propre jeu d'instructions simplifié. Ce coprocesseur était capable de manipuler de manière synchronisée les registres du matériel graphique avec le faisceau vidéo, permettant des fonctionnalités telles que les commutateurs de palette par ligne de balayage, le multiplexage des sprites et le fenêtrage matériel, ou il pouvait contrôler directement le blitter.

En 1985 également, IBM a présenté le Professional Graphics Controller, une carte graphique 3D fondamentale. Il offrait une résolution 640 × 480 avec des graphiques de 256 couleurs et utilisait un processeur dédié pour restituer les graphiques de manière autonome à partir du système principal. Ce contrôleur a servi de base architecturale aux cartes produites par divers fabricants, dont Matrox, et sa signalisation RVB analogique a directement influencé le développement de la norme vidéo VGA.

En 1986, Texas Instruments a dévoilé le TMS34010, qui s'est distingué comme le premier processeur graphique entièrement programmable. Ce processeur possédait la capacité d’exécuter du code à usage général tout en comportant également un jeu d’instructions spécialisées orientées graphiques. De 1990 à 1992, cette puce a ensuite constitué le cœur des cartes accélératrices Windows de Texas Instruments Graphics Architecture (« TIGA »).

Par la suite, en 1987, IBM a introduit le système graphique 8514. Ce système s'est distingué comme l'une des premières cartes vidéo compatibles IBM PC à implémenter des primitives 2D à fonction fixe directement dans le matériel électronique. Toujours en 1987, l'ordinateur X68000 de Sharp incorporait un chipset graphique personnalisé, offrant une palette de 65 536 couleurs et fournissant une accélération matérielle pour les sprites, le défilement et plusieurs terrains de jeu. Cette machine a notamment servi de plateforme de développement pour la carte arcade CP System de Capcom. Deux ans plus tard, en 1989, l'ordinateur FM Towns de Fujitsu prenait en charge une palette de 16 777 216 couleurs.

En 1987, IBM a lancé son système d'affichage Video Graphics Array (VGA), qui prenait en charge une résolution maximale de 640 × 480 pixels. Contrairement au 8514/A, le VGA manquait de capacités d'accélération matérielle. En novembre 1988, NEC Home Electronics a créé la Video Electronics Standards Association (VESA) pour développer et promouvoir le Super VGA (SVGA) en tant que norme d'affichage informatique successeur du VGA. Les résolutions d'affichage prises en charge par Super VGA atteignent 800 × 600 pixels, ce qui représente une amélioration de 56 % de la résolution.

En 1988, SGI a commercialisé des systèmes graphiques de station de travail IRIS équipés de 10 à 12 moteurs géométriques, et a ensuite lancé la carte complémentaire IrisVision, également basée sur le moteur géométrique. Engine, pour les systèmes de bus IBM MicroChannel (RS/6000).

Parallèlement, en 1988, le Namco System 21 et le Taito Air System ont fait leurs débuts, avec les premières cartes graphiques 3D polygonales dédiées aux machines d'arcade.

Les années 1990

Les années 1990 ont été marquées par des progrès significatifs dans le matériel graphique 3D pour stations de travail professionnelles de Sun Microsystems, SGI et d'autres fabricants. L'introduction d'OpenGL par SGI en 1992 a jeté les bases d'interfaces de programmation 3D standardisées et indépendantes du matériel. Néanmoins, entre le milieu et la fin des années 1990, le matériel de qualité professionnelle a été progressivement éclipsé par les produits de consommation. Ces offres grand public offraient des performances comparables ou supérieures, notamment en matière de mappage de texture, à un coût réduit et sur des plates-formes plus accessibles aux utilisateurs finaux.

En 1991, S3 Graphics a présenté le S3 86C911, nommé par ses concepteurs d'après la Porsche 911 pour signifier ses améliorations de performances attendues. Le 86C911 a inspiré de nombreuses imitations ; en 1995, tous les principaux fabricants de puces graphiques pour PC avaient intégré des capacités d'accélération 2D dans leurs produits. Les accélérateurs Windows dédiés à fonctions fixes ont par la suite surpassé les coûteux coprocesseurs graphiques à usage général dans les environnements Windows, conduisant à l'obsolescence de ces derniers sur le marché des PC.

Du début au milieu des années 1990, la prolifération des graphiques 3D en temps réel dans les jeux d'arcade, sur ordinateur et sur console a stimulé une demande croissante des consommateurs pour des solutions graphiques 3D accélérées par le matériel. Des exemples pionniers de matériel graphique 3D grand public ont émergé dans les cartes système d'arcade, notamment le Sega Model 1, le Namco System 22 et le Sega Model 2, ainsi que dans les consoles de jeux vidéo de cinquième génération comme la Saturn, la PlayStation et la Nintendo 64. Notamment, les systèmes d'arcade tels que le Sega Model 2 et le Namco Magic Edge Hornet Simulator basé sur SGI Onyx, introduits en 1993, comportaient un T&L accéléré par le matériel. (transformation, découpage et éclairage) des années avant leur intégration dans les cartes graphiques grand public. Une autre innovation précoce était la puce Super FX, un processeur graphique basé sur RISC intégré aux cartouches de jeux SNES, largement utilisé dans des titres tels que Doom et Star Fox. Certains systèmes utilisaient des processeurs de signal numérique (DSP) pour accélérer les transformations. Fujitsu, contributeur du système d'arcade Sega Model 2, a lancé des efforts en 1995 pour intégrer T&L dans une solution monolithique d'intégration à grande échelle (LSI) pour ordinateurs personnels. Cet effort a abouti au Fujitsu Pinolite, le premier processeur de géométrie 3D pour ordinateurs personnels, dévoilé en 1997. Le Reality Coprocessor de la Nintendo 64, lancé en 1996, représentait le premier GPU matériel T&L pour les consoles de jeux vidéo domestiques. Par la suite, en 1997, Mitsubishi a présenté le 3Dpro/2MP, un GPU offrant des capacités de transformation et d'éclairage pour les postes de travail et les ordinateurs de bureau Windows NT. ATi a intégré cette technologie dans sa carte graphique FireGL 4000, également lancée en 1997.

L'acronyme « GPU » a été créé par Sony, faisant spécifiquement référence au GPU Sony 32 bits (conçu par Toshiba) intégré à la console de jeu vidéo PlayStation, qui a fait ses débuts en 1994.

Les années 2000

En octobre 2002, le lancement de l'ATI Radeon 9700 (également désignée R300), reconnu comme le premier accélérateur Direct3D 9.0 au monde, a permis aux pixel shaders et aux vertex shaders d'exécuter des calculs itératifs et étendus en virgule flottante. Ces shaders se sont rapidement approchés de la flexibilité des processeurs tout en offrant des vitesses de traitement des tableaux d'images bien supérieures. Le pixel shading est fréquemment utilisé pour le bump mapping, une technique qui applique une texture pour restituer des objets avec des apparences variées, telles que des surfaces brillantes, ternes, rugueuses, arrondies ou extrudées.

Avec l'introduction de la série Nvidia GeForce 8 et de nouvelles unités génériques de traitement de flux, les unités de traitement graphique (GPU) ont évolué vers des dispositifs informatiques plus généralisés. Les GPU parallèles ont progressivement défié les unités centrales de traitement (CPU) dans les tâches de calcul, favorisant un domaine de recherche spécialisé connu sous le nom de GPU computing ou GPGPU, acronyme de calcul à usage général sur GPU. Ce domaine a donné naissance à diverses applications, notamment l'apprentissage automatique, l'exploration pétrolière, le traitement d'images scientifiques, l'algèbre linéaire, les statistiques, la reconstruction 3D et la tarification des options d'achat d'actions. Les GPGPU ont servi de prédécesseurs fondamentaux aux shaders de calcul contemporains (par exemple, CUDA, OpenCL, DirectCompute), exploitant initialement le matériel de manière non conventionnelle en interprétant les données algorithmiques sous forme de cartes de texture et en exécutant des algorithmes via le rendu d'un triangle ou d'un quad avec un pixel shader approprié. Cette approche introduisait intrinsèquement des frais opérationnels, car des composants tels que le convertisseur de balayage étaient engagés inutilement et les manipulations de triangles n'étaient pas pertinentes, sauf dans le seul but d'invoquer le pixel shader.

La plate-forme CUDA de Nvidia, lancée en 2007, représentait le paradigme de programmation initial largement adopté pour le calcul GPU. À l’inverse, OpenCL, un standard ouvert établi par le groupe Khronos, facilite le développement de code compatible à la fois avec les GPU et les CPU, en privilégiant la portabilité multiplateforme. Les implémentations d'OpenCL bénéficient du soutien des principaux acteurs du secteur, notamment Intel, AMD, Nvidia et ARM ; un rapport de 2011 d'Evans Data indiquait qu'OpenCL était devenu le deuxième outil le plus répandu en matière de calcul haute performance (HPC).

Années 2010

En 2010, Nvidia a collaboré avec Audi pour intégrer des GPU Tegra dans les tableaux de bord des véhicules, améliorant ainsi les fonctionnalités des systèmes de navigation et de divertissement automobiles. Parallèlement, les progrès de la technologie GPU dans le secteur automobile ont contribué de manière significative à la progression des capacités de conduite autonome. AMD a présenté ses cartes graphiques Radeon HD 6000 en 2010, suivies par la sortie des GPU discrets de la série 6000M pour plates-formes mobiles en 2011. La gamme de cartes graphiques Kepler de Nvidia, lancée en 2012, a été intégrée aux séries Nvidia 600 et 700. Les fonctionnalités notables de la microarchitecture GPU Kepler incluent GPU Boost, une technologie conçue pour ajuster dynamiquement la vitesse d'horloge d'une carte vidéo en fonction de sa consommation d'énergie, et NVENC, une technologie d'accélération d'encodage vidéo dédiée.

En 2013, les consoles PlayStation 4 et Xbox One ont été lancées, toutes deux intégrant des GPU dérivés des architectures Radeon HD 7850 et 7790 d'AMD. La série de GPU Kepler de Nvidia a été remplacée par la gamme Maxwell, qui utilisait le processus de fabrication identique. Les puces 28 nm de Nvidia ont été fabriquées par TSMC à Taiwan, en utilisant le processus 28 nm qui, par rapport à la technologie 40 nm précédente, a entraîné une augmentation des performances de 20 % ainsi qu'une consommation d'énergie réduite. Les casques de réalité virtuelle, lors de leur sortie initiale, nécessitaient des spécifications système substantielles, les fabricants recommandant des GPU tels que le GTX 970 ou le R9 290X, ou des modèles supérieurs. Les cartes graphiques fondées sur la microarchitecture Pascal ont été introduites en 2016, comprenant la série GeForce 10. Ces cartes ont été produites à l'aide d'un processus de fabrication en 16 nm, ce qui représente une amélioration significative par rapport aux microarchitectures précédentes.

En 2018, Nvidia a présenté les GPU de la série RTX 20, qui intégraient des cœurs de traçage de rayons dédiés, permettant des capacités de traçage de rayons en temps réel sur du matériel grand public. Parallèlement, les GPU Polaris 11 et Polaris 10 d'AMD ont été fabriqués à l'aide d'un processus de 14 nm, ce qui a entraîné une amélioration notable de la mesure des performances par watt des cartes vidéo AMD. AMD a en outre lancé la série de GPU Vega, ciblant le marché haut de gamme en tant que concurrent direct des cartes Pascal haut de gamme de Nvidia, et présentait notamment la mémoire à bande passante élevée 2 (HBM2), similaire au Titan V.

En 2019, AMD a présenté RDNA, le successeur de sa microarchitecture et de son jeu d'instructions Graphics Core Next (GCN), la série de cartes vidéo Radeon RX 5000 étant le premier produit à le présenter. La société a par la suite annoncé que la prochaine itération de la microarchitecture RDNA constituerait une « actualisation » incrémentielle. AMD a ensuite dévoilé la série Radeon RX 6000, qui incorporait l'architecture graphique RDNA 2 et prenait en charge le traçage de rayons accéléré par le matériel. Cette série de produits, lancée fin 2020, comprenait les RX 6800, RX 6800 XT et RX 6900 XT. Le RX 6700 XT, basé sur l'architecture Navi 22, a été lancé début 2021.

Les PlayStation 5, Xbox Series X et Xbox Series S, toutes lancées en 2020, intègrent des GPU fondés sur la microarchitecture RDNA 2, avec des améliorations incrémentielles et des configurations GPU distinctes adaptées à la mise en œuvre de chaque système.

Années 2020

Au cours des années 2020, les unités de traitement graphique (GPU) ont connu une adoption croissante pour les calculs impliquant des problèmes hautement parallélisables, en particulier pour la formation de réseaux neuronaux sur de vastes ensembles de données essentiels aux grands modèles de langage de l'intelligence artificielle. La plupart des GPU contemporains intègrent des cœurs de traitement spécialisés conçus pour l'apprentissage en profondeur, qui améliorent considérablement les performances des FLOPS grâce à des opérations de multiplication et de division matricielles 4 × 4. Les premières implémentations, illustrées par la microarchitecture Volta de Nvidia, introduite en 2017, ont démontré des niveaux de performances atteignant jusqu'à 128 TFLOPS dans des applications spécifiques.

Par la suite, les cœurs d'accélération IA sont devenus une fonctionnalité répandue dans les microarchitectures grand public et de postes de travail, à commencer par la microarchitecture Turing de Nvidia en 2018, où ils ont été désignés comme cœurs Tensor. Initialement déployés pour le Deep Learning Super Sampling (DLSS) afin d'augmenter les performances de jeu et d'affiner la fidélité de l'image, ces cœurs ont depuis été intégrés au logiciel Broadcast de Nvidia, permettant diverses fonctionnalités basées sur l'IA telles que le filtrage vocal et la réduction du bruit vidéo.

AMD a ensuite intégré ses cœurs « Matrix » analogues dans son architecture RDNA 3 pour les produits grand public, tandis qu'Intel a incorporé ses cœurs « XMX » équivalents dans tous les GPU Arc, en commençant par la microarchitecture Alchemist.

Fabricants de GPU

De nombreuses sociétés ont développé des GPU commercialisés sous diverses marques. En 2009, Intel, Nvidia et AMD/ATI constituaient les principaux leaders du marché, détenant respectivement des parts de marché de 49,4 %, 27,8 % et 20,6 %. Matrox fabrique également des GPU. En outre, les entreprises chinoises, dont Jingjia Micro, ont produit des GPU principalement pour leur marché intérieur, même si leur volume de ventes mondiales reste nettement inférieur à celui des leaders établis du marché.

Capacités informatiques

Les performances d'une carte graphique en matière de rendu en temps réel sont influencées par plusieurs facteurs architecturaux, notamment les dimensions des chemins de connecteurs dans la fabrication des dispositifs à semi-conducteurs, la fréquence du signal d'horloge, ainsi que la quantité et la capacité des caches mémoire intégrés. Les performances sont également déterminées par le nombre de multiprocesseurs de streaming (SM) dans les GPU Nvidia, d'unités de calcul (CU) dans les GPU AMD ou de cœurs Xe dans les GPU Intel Xe. Ces unités représentent les cœurs de processeur sur silicium au sein de la puce GPU qui exécutent les calculs principaux, fonctionnant souvent en parallèle avec d'autres SM ou CU. Les performances du GPU sont classiquement quantifiées en opérations à virgule flottante par seconde (FLOPS) ; Les GPU développés au cours des années 2010 et 2020 atteignent généralement des niveaux de performances mesurés en téraflops (TFLOPS). Il est important de noter que cette métrique fournit une estimation des performances, car divers autres éléments peuvent avoir un impact sur le taux d'affichage réel.

Interfaces de programmation d'applications graphiques 2D

Les anciens GPU prenaient souvent en charge une ou plusieurs interfaces de programmation d'applications (API) graphiques 2D pour l'accélération 2D, notamment GDI et DirectDraw.

Configurations GPU

Terminologie

Au cours des années 1970, l'acronyme « GPU » désignait initialement une unité de processeur graphique, caractérisant un composant de traitement programmable fonctionnant de manière autonome par rapport à l'unité centrale de traitement (CPU) et dédié à la manipulation et à la sortie graphiques. En 1994, Sony a utilisé le terme (avec le sens de unité de traitement graphique) pour désigner le GPU Sony conçu par Toshiba dans la console PlayStation. Nvidia a ensuite popularisé le terme en 1999, en commercialisant sa GeForce 256 comme « le premier GPU au monde », présenté comme un « processeur monopuce avec moteurs intégrés de transformation, d'éclairage, de configuration/découpage de triangle et de rendu ». En réponse, son rival ATI Technologies a introduit la désignation « unité de traitement visuel » (VPU) lors de la sortie de sa Radeon 9700 en 2002. Plus récemment, l'AMD Alveo MA35D, lancé en 2023, intègre deux VPU, chacun fabriqué à l'aide d'un processus de 5 nm.

Dans les systèmes informatiques personnels, les GPU se manifestent principalement sous deux configurations : des graphiques dédiés (également appelés graphiques discrets) et des graphiques intégrés (ou des graphiques intégrés). appelées solutions graphiques partagées, processeurs graphiques intégrés (IGP) ou architecture de mémoire unifiée (UMA)).

Unité de traitement graphique dédiée

Les unités de traitement graphique dédiées utilisent la mémoire vive (RAM) exclusivement allouée au GPU, ne dépendant ainsi pas de la mémoire système principale de l'ordinateur. Cette RAM spécialisée, telle que la SDRAM GDDR, est généralement choisie pour s'adapter à la charge de travail séquentielle prévue de la carte graphique. Historiquement, les systèmes équipés de GPU discrets dédiés étaient souvent appelés systèmes « DIS », par opposition aux systèmes « UMA » (Unified Memory Architecture).

Des technologies telles que Scan-Line Interleave de 3dfx, Scalable Link Interface (SLI) et NVLink de Nvidia et CrossFire d'AMD permettent à plusieurs GPU de restituer des images simultanément pour un seul affichage, augmentant ainsi la capacité de calcul dédiée au traitement graphique. Néanmoins, la prévalence de ces configurations multi-GPU diminue, principalement parce que la plupart des jeux contemporains n’exploitent pas pleinement leurs capacités et que les coûts associés sont prohibitifs pour la majorité des consommateurs. Malgré ce déclin de l'adoption par les consommateurs, les configurations multi-GPU restent partie intégrante de domaines spécialisés tels que le calcul intensif (par exemple, Summit), les stations de travail professionnelles pour accélérer le traitement vidéo et le rendu 3D, la production d'effets visuels (VFX), les charges de travail des unités de traitement graphique à usage général (GPGPU), les simulations scientifiques et la formation à l'intelligence artificielle (IA), illustrées par les stations de travail et serveurs DGX de Nvidia, les GPU Tesla et le Ponte Vecchio d'Intel. GPU.

Unités de traitement graphique intégrées

Les

Unités de traitement graphique intégrées (IGPU), également appelées graphiques intégrés, solutions graphiques partagées, processeurs graphiques intégrés (IGP) ou architectures de mémoire unifiées (UMA), utilisent un segment de la mémoire vive (RAM) du système principal de l'ordinateur au lieu d'employer une mémoire graphique dédiée. Ces processeurs graphiques intégrés peuvent être intégrés directement sur une carte mère, souvent en tant que composant du chipset Northbridge, ou colocalisés sur la même puce de circuit intégré que l'unité centrale de traitement (CPU), illustrée par les unités de traitement accélérées (APU) d'AMD et Intel HD Graphics. De plus, des conceptions spécifiques de cartes mères permettent aux IGP d'AMD d'accéder à la mémoire sideport dédiée, qui constitue un bloc de mémoire distinct et hautes performances exclusivement alloué aux opérations GPU. Début 2007, les systèmes équipés de graphiques intégrés représentaient environ 90 % de toutes les expéditions d'ordinateurs personnels. Tout en offrant une mise en œuvre plus rentable par rapport aux solutions graphiques discrètes, elles présentent généralement des capacités de performances inférieures. Historiquement, les solutions graphiques intégrées étaient jugées inadaptées aux jeux 3D exigeants ou aux applications gourmandes en graphiques, même si elles prenaient en charge de manière adéquate des programmes moins exigeants comme Adobe Flash. Des exemples illustratifs de cette époque incluent les offres de SiS et VIA vers 2004. Néanmoins, les processeurs graphiques intégrés contemporains, y compris les unités de traitement accéléré d'AMD et les variantes de la technologie graphique Intel (par exemple, HD, UHD, Iris, Iris Pro, Iris Plus et Xe-LP), sont désormais capables de restituer des graphiques 2D et de gérer des charges de travail graphiques 3D moins exigeantes.

Compte tenu de la nature gourmande en mémoire du GPU. Lors des calculs, les unités de traitement graphique intégrées (IGP) rivalisent souvent avec l'unité centrale de traitement (CPU) pour accéder à la RAM système comparativement plus lente, en raison de leur mémoire vidéo dédiée minimale ou absente. Alors que les IGP utilisent généralement la mémoire système avec une bande passante atteignant environ 128 gigaoctets par seconde, une carte graphique discrète peut atteindre des bandes passantes supérieures à 1 000 gigaoctets par seconde entre sa mémoire vidéo vive (VRAM) et le cœur du GPU. De telles disparités dans la bande passante du bus mémoire peuvent limiter considérablement les performances du GPU, bien que la mise en œuvre de configurations de mémoire multicanal puisse atténuer partiellement cette limitation. Historiquement, les chipsets graphiques intégrés omettaient les capacités de transformation matérielle et d'éclairage ; cependant, les itérations modernes intègrent désormais ces fonctionnalités.

Dans les systèmes utilisant une architecture de mémoire unifiée (UMA), tels que les processeurs AMD et Intel contemporains dotés de graphiques intégrés, les processeurs Apple et les consoles comme la PlayStation 5 et la Xbox Series, les cœurs d'unité centrale (CPU) et l'unité de traitement graphique (GPU) bloquent l'accès à un pool partagé de mémoire vive (RAM) et à un espace d'adressage de mémoire unifié.

Traitement de flux et unités de traitement graphique à usage général (GPGPU)

L'utilisation d'une unité de traitement graphique à usage général (GPGPU) comme processeur de flux ou vectoriel adapté, exécutant des noyaux de calcul, est devenue une pratique répandue. Cette méthodologie transforme efficacement les capacités de calcul substantielles inhérentes au pipeline de shader d'un accélérateur graphique moderne en une ressource polyvalente pour l'informatique à usage général. Pour des applications spécifiques exigeant des opérations vectorielles étendues, cette approche peut apporter des améliorations de performances de plusieurs ordres de grandeur supérieures à celles obtenues avec une unité centrale de traitement (CPU) conventionnelle. AMD et Nvidia, les principaux concepteurs de GPU discrets, font activement progresser ce paradigme dans une large gamme d'applications. Notamment, Nvidia et AMD ont collaboré avec l'Université de Stanford pour développer un client accéléré par GPU pour le projet d'informatique distribuée Folding@home, dédié aux simulations de repliement de protéines. Dans des conditions spécifiques, le GPU peut effectuer des calculs jusqu'à quarante fois plus rapidement que les processeurs historiquement utilisés pour ces types d'applications.

Les systèmes informatiques hautes performances accélérés par les unités de traitement graphique (GPU) jouent un rôle déterminant dans la facilitation de la modélisation informatique à grande échelle. Actuellement, trois des dix supercalculateurs les plus puissants au monde exploitent l'accélération GPU pour réaliser leurs prouesses informatiques.

Depuis 2005, un intérêt significatif a émergé pour tirer parti des capacités de calcul des GPU pour le calcul évolutif général, en particulier pour accélérer l'évaluation de la condition physique dans le cadre de la programmation génétique. Les méthodologies prédominantes impliquent la compilation de programmes linéaires ou arborescents sur un PC hôte, puis le transfert du code exécutable vers le GPU pour exécution. Les gains de performances sont généralement obtenus en exécutant simultanément un seul programme actif sur de nombreuses instances de problèmes parallèles, en exploitant l'architecture SIMD (Single Instruction, Multiple Data) du GPU. De plus, une accélération considérable peut être obtenue en renonçant à la compilation des programmes et en transférant les programmes directement vers le GPU pour interprétation.

GPU externe (eGPU)

Un GPU peut être interfacé avec un ordinateur portable via un bus externe, PCI Express étant le standard exclusif utilisé pour cette application. Les types de ports disponibles incluent, sans s'y limiter, ExpressCard ou mPCIe (PCIe ×1, offrant respectivement jusqu'à 5 ou 2,5 gigabits par seconde), Thunderbolt 1, 2 ou 3 (PCIe ×4, fournissant jusqu'à 10, 20 ou 40 gigabits par seconde, respectivement), USB4 avec compatibilité Thunderbolt ou OCuLink. La disponibilité de ces ports dépend des configurations système spécifiques du portable. Les boîtiers GPU externes nécessitent un bloc d'alimentation (PSU) indépendant en raison de la consommation électrique importante, potentiellement des centaines de watts, des GPU hautes performances.

Efficacité énergétique

Ventes

Les livraisons mondiales de GPU ont atteint 438,3 millions d'unités en 2013, avec une baisse prévue à 414,2 millions pour 2014. Néanmoins, au troisième trimestre 2022, les livraisons de GPU pour PC étaient tombées à environ 75,5 millions d'unités, ce qui représente une réduction de 19 % d'une année sur l'autre.

Matériel

Liste des unités de traitement graphique AMD
Liste des unités de traitement graphique Nvidia
Liste des unités de traitement graphique Intel
Liste des unités de traitement graphique discrètes et intégrées
Intel GMA
Larrabee
Nvidia PureVideo est une technologie de flux binaire développée par Nvidia, intégrée à ses puces graphiques pour faciliter le décodage vidéo accéléré matériellement sur les GPU utilisant DXVA.
SoC
UVD (Unified Video Decoder) représente la technologie de décodage vidéo à flux binaire d'ATI, conçue pour permettre un décodage GPU accéléré par le matériel via DXVA.

API

Applications

Cluster GPU
Mathematica intègre une prise en charge native de l'exécution GPU via les frameworks CUDA et OpenCL.
Modélisation moléculaire sur GPU
Deeplearning4j est un framework d'apprentissage profond distribué et open source spécialement conçu pour les environnements Java.

Personnes

Liste des éponymes des microarchitectures GPU Nvidia

Références

Sources

Peddie, Jon (1er janvier 2023). L'histoire du GPU – Nouveaux développements. Springer Nature. ISBN 978-3-03-114047-1. OCLC 1356877844.

Unité de traitement graphique (Graphics processing unit)