Qu’est-ce que la parcimonie ? Le secret de DeepSeek AI, révélé par des chercheurs d'Apple
Le modèle d’IA qui a secoué le monde fait partie d’une tendance générale à tirer le meilleur parti des puces. Voici comment cela fonctionne.
Le marché de l'intelligence artificielle (IA) - et l'ensemble du marché boursier - a été secoué le mois dernier par la popularité soudaine de DeepSeek, le modèle de langage open source (LLM) développé par un fonds spéculatif basé en Chine qui a battu les meilleurs d'OpenAI dans certaines tâches tout en coûtant beaucoup moins.
Comme le détaille Radhika Rajkumar de ZDNET, le succès de R1 met en évidence un changement radical dans l'IA qui pourrait permettre aux petits laboratoires et aux chercheurs de créer des modèles compétitifs et de diversifier les options disponibles.
Pourquoi DeepSeek fonctionne-t-il si bien ?
Son succès est dû à une large approche au sein des formes d’apprentissage profond de l’IA pour tirer le meilleur parti des puces informatiques en exploitant un phénomène connu sous le nom de « parcimonie ».
La rareté se présente sous de nombreuses formes. Parfois, il s'agit d'éliminer des parties des données utilisées par l'IA lorsque ces données n'affectent pas matériellement le résultat du modèle.
À d'autres moments, la parcimonie implique de couper des parties entières d'un réseau neuronal si cela n'affecte pas le résultat.
DeepSeek est un exemple de ce dernier : l’utilisation parcimonieuse des réseaux neuronaux.
La principale avancée que la plupart des gens ont identifiée dans DeepSeek est qu’il peut activer et désactiver de grandes sections de « poids » ou de « paramètres » de réseau neuronal. Les paramètres déterminent la façon dont un réseau neuronal peut transformer l’entrée (l’invite que vous tapez) en texte ou en images générés. Les paramètres ont un impact direct sur le temps nécessaire pour effectuer les calculs. Plus de paramètres signifie généralement plus d’effort de calcul.
La parcimonie et son rôle dans l’IA
La possibilité de n’utiliser qu’une partie des paramètres totaux d’un LLM et de désactiver le reste est un exemple de parcimonie. Cette rareté peut avoir un impact majeur sur la taille ou la taille du budget de calcul d’un modèle d’IA.
Dans un rapport publié le 21 janvier, les chercheurs d’Apple ont expliqué comment DeepSeek et des approches similaires utilisent la parcimonie pour obtenir de meilleurs résultats pour une quantité donnée de puissance de calcul.
Apple n’a aucun lien avec DeepSeek, mais le géant de la technologie effectue ses propres recherches sur l’IA. Par conséquent, les développements d'entreprises extérieures telles que DeepSeek font largement partie de l'implication continue d'Apple dans la recherche sur l'IA.
Dans l’article, intitulé « Paramètres vs FLOPS : Lois de mise à l’échelle pour une parcimonie optimale pour les modèles de langage Mixture-of-Experts », publié sur le serveur de pré-impression arXiv, l’auteur principal Samir Abnar et d’autres chercheurs d’Apple, ainsi que son collaborateur Harshay Shah du MIT, ont étudié comment les performances variaient en exploitant la parcimonie en désactivant certaines parties du réseau neuronal.
Abnar et son équipe ont mené leurs études à l’aide d’une bibliothèque de code publiée en 2023 par des chercheurs en IA de Microsoft, Google et Stanford, appelée MegaBlocks. Cependant, ils précisent que leur travail peut être appliqué à DeepSeek et à d’autres innovations récentes.
Abnar et l'équipe se demandent s'il existe un niveau « optimal » de parcimonie dans DeepSeek et des modèles similaires : pour une quantité donnée de puissance de calcul, y a-t-il un nombre optimal de ces poids neuronaux à activer ou à désactiver ?
La recherche suggère que vous pouvez quantifier pleinement la parcimonie comme le pourcentage de tous les poids neuronaux que vous pouvez arrêter, ce pourcentage approchant mais n’égalant jamais 100 % du réseau neuronal étant « inactif ».
Les graphiques montrent que pour un réseau neuronal donné, sur un budget de calcul donné, il y a une quantité optimale du réseau neuronal qui peut être désactivée pour atteindre un certain niveau de précision. La même règle économique s’applique à chaque nouvelle génération d’ordinateurs personnels : soit un meilleur résultat pour le même argent, soit le même résultat pour moins d’argent.
Pour un réseau neuronal d’une taille donnée en paramètres totaux, avec une quantité donnée de calcul, vous avez besoin de moins en moins de paramètres pour obtenir une précision égale ou supérieure sur un test de référence d’IA donné, tel que les mathématiques ou les réponses aux questions.
En d’autres termes, quelle que soit votre puissance de calcul, vous pouvez désactiver de plus en plus certaines parties du réseau neuronal et obtenir des résultats identiques ou meilleurs.
Optimiser l’IA avec moins de paramètres
Comme l’ont déclaré Abnar et son équipe en termes techniques : « L’augmentation de la parcimonie tout en augmentant proportionnellement le nombre total de paramètres conduit systématiquement à une perte de pré-entraînement plus faible, même lorsqu’elle est contrainte par un budget de calcul d’entraînement fixe. » Le terme « perte de pré-entraînement » est le terme d’IA désignant la précision d’un réseau neuronal. Une perte d’entraînement plus faible signifie des résultats plus précis.
Cette découverte explique comment DeepSeek pourrait avoir moins de puissance de calcul mais obtenir des résultats identiques ou meilleurs simplement en éteignant plus de parties du réseau.
La parcimonie est comme un cadran magique qui trouve la meilleure correspondance pour votre modèle d’IA et le calcul disponible.
La même règle économique s’applique à chaque nouvelle génération d’ordinateurs personnels : soit un meilleur résultat pour le même argent, soit le même résultat pour moins d’argent.
Il y a d’autres détails à prendre en compte à propos de DeepSeek. Par exemple, une autre innovation de DeepSeek, comme l’explique Ege Erdil d’Epoch AI, est une astuce mathématique appelée « attention latente multi-têtes ». Sans entrer trop dans les détails, l’attention latente multi-têtes est utilisée pour compresser l’un des plus grands consommateurs de mémoire et de bande passante, le cache mémoire qui contient le texte le plus récemment saisi d’une invite.
L’avenir de la recherche sur la parcimonie
Mis à part les détails, le point le plus profond de tous ces efforts est que la rareté en tant que phénomène n’est pas nouvelle dans la recherche sur l’IA, ni une nouvelle approche en ingénierie.
Les chercheurs en IA ont montré pendant de nombreuses années que l’élimination de parties d’un réseau neuronal pouvait permettre d’obtenir une précision comparable, voire meilleure, avec moins d’efforts.
Intel , concurrent de Nvidia, a identifié la parcimonie comme une piste de recherche clé pour changer l’état de l’art dans le domaine depuis de nombreuses années. Les approches des startups basées sur la rareté ont également obtenu des scores élevés sur les benchmarks de l’industrie ces dernières années.
Le cadran magique de la rareté ne réduit pas seulement les coûts de calcul, comme dans le cas de DeepSeek. La parcimonie joue également dans l’autre sens : elle peut rendre les ordinateurs d’IA de plus en plus efficaces.
Le cadran magique de la parcimonie est profond parce qu'il améliore non seulement l'économie pour un petit budget, comme dans le cas de DeepSeek, mais il fonctionne également dans l'autre sens : dépensez plus, et vous obtiendrez des avantages encore meilleurs grâce à la parcimonie. Au fur et à mesure que vous augmentez votre puissance de calcul, la précision du modèle d’IA s’améliore, ont constaté Abnar et l’équipe.
Ils ont suggéré : « À mesure que la parcimonie augmente, la perte de validation diminue pour tous les budgets de calcul, les budgets plus importants atteignant des pertes plus faibles à chaque niveau de parcimonie. »
En théorie, vous pouvez donc créer des modèles de plus en plus grands, sur des ordinateurs de plus en plus grands, et en avoir plus pour votre argent.
Tout ce travail parcimonieux signifie que DeepSeek n'est qu'un exemple d'un vaste domaine de recherche que de nombreux laboratoires suivent déjà - et beaucoup d'autres vont maintenant reproduire le succès de DeepSeek.