Accueil IA et robotique Toujours plus petit ? La fin d’un mythe en informatique

Toujours plus petit ? La fin d’un mythe en informatique

par Arthur Toce
cerebras puce CS-1

[Une idée très répandue dans le monde de l’informatique vient de prendre un sacré coup… Celle-là même qui affirme que plus les composants d’un processeur sont petits, plus ce dernier est puissant et optimisé. Cerebras Systems, spécialiste des puces IA, vient de démontrer exactement le contraire… La course à la miniaturisation de l’informatique est révolue – sur le segment du machine learning en tout cas.]

En dignes héritiers de Gordon Moore – fondateur d’Intel et théoricien de la fameuse loi qui porte son nom –, les fondeurs du monde entier sont lancés, depuis de nombreuses années déjà, dans une course effrénée à la miniaturisation. Comme on a tendance à le croire de nos jours, plus les composants d’un processeur seront petits, plus ce dernier sera puissant et optimisé puisqu’on pourra en mettre plus sur une même surface.

Produire des puces gigantesques serait-il enfin une bonne chose ?

Cela n’est pas faux, loin de là. Mais, Cerebras Systems, qui travaille à se faire une place dans les puces IA (Intelligence Artificielle), vient de démontrer exactement le contraire…

La puce CS-1 est massive, c’est le moins que l’on puisse dire : 21,59 centimètres d’un côté à l’autre, elle abrite 1 200 milliards de transistors. La deuxième puce la plus grosse vient de chez Nvidia (NASDAQ : NVDA). C’est la A100 GPU qui est presque 10 fois plus petite (2,4 centimètres) et héberge 54 milliards de transistors (22 fois moins).

C’est vous dire si, chez Cerebras, on a la plus grosse… et de loin ! Produire des puces gigantesques serait-il enfin une bonne chose ?

wafer Cerebras

Le wafer de Cerebras, un géant encombrant ? Source : Cerebras Systems

 

Grosse puce, le Graal de l’IA !

Cerebras Systems, entreprise créée en 2016, a toujours argumenté qu’une grosse puce serait plus efficace pour les modèles du machine learning (apprentissage automatique) qu’une myriade de puces plus petites. Et, même si l’idée était à contre-courant, la DARPA y a cru.

Le laboratoire américain National Energy Technology Laboratory (NETL) a donc utilisé cette puce pour voir si elle pouvait rivaliser avec un de ses supercalculateurs, Joule 2. Les algorithmes calculent des problèmes de mécanique des fluides. L’armée de David, qui prend quasiment un terrain de foot de surface, sera-t-elle meilleure que CS-1, le Goliath qui tient dans un gros frigo ?

Résultat des courses : Joule 2 et son armée de petits David ont été battus à plate couture par Goliath. CS-1 est 200 fois plus rapide dans la résolution du problème que Joule 2 !

Encore plus fou, Goliath avait le résultat avant qu’il ne se produise réellement (si l’expérience avait était menée physiquement en parallèle).

Pour beaucoup, cela peut paraître abstrait, mais cette capacité de calcul rapide qui permet d’anticiper est primordiale pour beaucoup de secteurs de la recherche fondamentale, mais aussi dans des secteurs plus proches du consommateur, comme la voiture autonome.

Enfin, c’est un pas de géant en termes de coûts. Joule 2 coûte plusieurs milliards de dollars. Il consomme 450 KwH. La puce CS-1 ne consomme que 20 KwH et son prix de revient est inférieur à 10 M$. L’optimisation des processus IA est tout simplement phénoménale.

Le secret de Cerebras

Dans le monde des semi-conducteurs, chaque puce commence sa vie sur une grosse pièce de silicium qu’on nomme “wafer”. D’habitude, les puces sont ensuite découpées, mais pas chez Cerebras. La startup des puces pour IA laisse le wafer intact et crée ce que l’on pourrait appeler une puce globale. Cette puce contient 400 000 processeurs. Chacun de ces 400 000 processeurs est doté de sa propre mémoire et a quatre voisins.

Cette idée de relier les processeurs entre eux et de donner une mémoire dédiée à chacun est le seul paramètre qui permet à Cerebras de battre Joule 2.

En effet, dans un supercalculateur, les processeurs travaillent en parallèle. Il faut donc qu’ils communiquent entre eux. Il faut distribuer les tâches et les vérifier. Ce travail en orchestre est très complexe et, souvent, la puissance obtenue est bien inférieure à la puissance installée. La déperdition est importante.

Schéma architecture CerebrasSchéma de l’architecture Cerebras. Source : Cerebras Systems

Parfait pour l’autonomie des véhicules lourds

Inversement, le souci de Cerebras c’est donc sa limite. Si le problème devient trop complexe et dépasse sa capacité de calcul simultanée, l’avantage repart chez les supercalculateurs.

Il faut cependant se rendre compte que les “petits” problèmes mathématiques sont nombreux et que leur résolution ultra-rapide changerait le monde

Par exemple, la machine pourrait simuler les mouvements d’un hélicoptère essayant de se poser sur un porte-avion en temps réel et donc faciliter son atterrissage.

Ce genre de puces XXL pourrait être la clé du déplacement autonome des transports lourds

Bien sûr, CS-1 est une V1 et Cerebras améliorera sa puce géante. Plus il y aura de transistors et de processeurs, plus elle augmentera le nombre de problèmes qu’elle peut résoudre rapidement. A terme, ce genre de puces XXL pourrait être la clé du déplacement autonome des transports lourds : navires, avions, etc.

Contrairement aux voitures, il leur serait assez facile d’abriter une puce de cette taille, qui pourrait calculer à la volée des situations difficiles pour sécuriser et améliorer ces outils.

Enfin, notons pour finir que la consommation d’énergie est très largement réduite, ce qui est très important de nos jours.

En conclusion, Goliath n’est forcément pas meilleur que David. Les deux sont complémentaires et l’évolution sur ces différentes routes pourrait révolutionner le monde.

L’étude complète est disponible ici si vous souhaitez creuser : https://arxiv.org/pdf/2010.03660.pdf

Soyez le premier informé des dernières Opportunités Technos directement dans votre boîte mail

Articles similaires

Laissez un commentaire