Deepseek : il était une fois la révolution

Deepseek marque-t-il un tournant historique ou simplement une évolution logique ?

IA
LLM
INNOVATION
Par
Xavier Blary
le
11/2/2025
La révolution Deepseek

Je n’ai sûrement pas à vous rappeler le bruit qu’a fait l’arrivée de Deepseek. 600milliards de dollars évaporés en une seule séance, NVidia qui repasse à la troisième place en terme de capitalisation boursière entraînant Broadcom, Cisco et Oracle dans son sillage…

Au-delà des aspects boursiers, l’arrivée de Deepseek semble marquer la fin de la course à l’armement dans le domaine des LLM. Après que les acteurs majeurs comme OpenAi et Google aient dépassé les 1000 milliards de paramètres, Deepseek sort, selon eux, avec 30% de paramètres en moins, une réduction de 95% du temps d’entraînement et de 90% de la consommation.

Bien qu’impressionnants, ces chiffres restent néanmoins très abstraits. Alors, Deepseek, c’est un tournant, une rupture, voire un défi lancé aux acteurs historiques du secteur ? Ou bien est-ce simplement une évolution logique du marché ?

1. En quoi Deepseek fait la différence ?

Deepseek se démarque principalement par son efficacité énergétique et son optimisation des ressources. Là où OpenAI et Google ont misé sur des modèles toujours plus vastes et gourmands en puissance de calcul, Deepseek adopte une approche plus pragmatique. Il est conçu pour être plus économe tout en maintenant un niveau de performance égal à ses concurrents.

Pour arriver à ces résultats, Deepseek utilise 3 leviers principaux :

  • L’architecture;
  • L’apprentissage;
  • Des puces électroniques d’ancienne génération.

Deepseek met à disposition un modèle architecturé en « mixture of experts »qui se différencie de ce qui a été proposé au grand public récemment en mettant en parallèle plusieurs réseaux de neurones spécialisés plutôt qu’un seul réseau généraliste. Ceci permet de n’activer qu’une partie des paramètres par requête. Ainsi, au lieu d’activer ses 671 milliards de paramètres à chaque fois, Deepseek n’en active que 37 milliards. Outre une consommation moindre, ce modèle est plus facilement scalable que l’autre. Mais attention, ce n’est pas une innovation, OpenAI et Google utilisent déjà cette architecture pour certains modèles.

Autre raison pour laquelle Deepseek a fait grand bruit : son apprentissage. Le public a surtout retenu le fait que Deepseek avait utilisé Chat-GPT pour s’entraîner. C’est une technique connue, celle de la distillation des connaissances. Concrètement, Deepseek a pu profiter de l’étiquetage supposé correct ainsi que des probabilités issues de l’entraînement initial de Chat-GPT en comparant les écarts de réponses du modèle américain sur le chinois. Mais ce n’est pas les seules spécificités de l’apprentissage de Deepseek. La phase de fine-tuning après l’apprentissage initial a utilisé le « Chain of thought » (un raisonnement en plusieurs étapes) validé par un système de punitions/récompenses, c’est-à-dire du « Reinforcement learning ». Encore une fois, rien de très nouveau en soi. L’innovation réside dans une combinaison astucieuse de techniques connues.

Enfin, Deepseek a diminué ses besoins de puissance en réduisant le nombre des chiffres après la virgule dans ses calculs. Oui, pour ceux qui se demandent pourquoi une boîte dont les produits étaient originellement destinés aux gamers comme NVidia est devenue le principal fournisseur des sociétés d’intelligence artificielle, tout tient aux chiffres après la virgule. Les processeurs centraux (CPU) sont spécialisés dans les calculs de nombre ronds (pour simplifier). Or, pour produire les graphismes des jeux, il est beaucoup plus efficace d’utiliser des nombres à virgule flottante. D’où l’apparition des cartes graphiques et la situation que nous connaissons actuellement. Bref, Deepseek a limité le nombre de chiffres après la virgule dans ses calculs, ce qui lui permet d’utiliser du matériel plus ancien, moins puissant et supposément moins gourmand. Deepseek a aussi développé son propre langage pour accéder aux ressources des puces (au lieu de CUDA) pour plus d’efficacité. Ainsi, il peut se passer des puces A100 et H100 utilisées par exemple par OpenAI et se contenter de puces H800.

C’est là une innovation majeure de Deepseek : faire mieux avec moins, plutôt que de faire le grand bond en avant dans le mur de la loi de Moore.

2. Transformer la contrainte en opportunité

Cette approche plus efficiente est une réponse aux restrictions américaines et à l’évolution du contexte géopolitique. Depuis plusieurs années, les États-Unis imposent des restrictions strictes sur l’exportation de composants essentiels, notamment les puces avancées nécessaires à l’entraînement des IA. Ces sanctions visent à limiter les capacités technologiques chinoises, mais elles ont eu l’effet inverse : elles ont poussé la Chine à innover autrement.

Plutôt que de dépendre d’une puissance brute difficilement accessible, l’entreprise chinoise a optimisé l’usage des ressources disponibles.

Les contraintes matérielles ont forcé une réflexion sur l’efficience, un facteur que les entreprises occidentales avaient largement négligé jusqu’ici.

Il est d’ailleurs ironique de constater que ces sanctions économiques ont eu un impact plus immédiat sur l’efficience énergétique des IA que des décennies de discussions sur le changement climatique ! Alors que les régulations environnementales peinent à imposer des restrictions aux grandes entreprises technologiques, les contraintes économiques et géopolitiques se révèlent être de puissants moteurs d’innovation.

Avec Deepseek, nous assistons vraisemblablement à la fin de la période de course aux armements dans l’IA générative. Pendant deux ans, la tendance dominante était à l’escalade : plus de calcul, plus de puissance, plus de données. Aujourd’hui, nous voyons émerger une nouvelle dynamique, où l’efficience et l’optimisation prennent le pas sur la simple puissance brute. Et je pense qu’il s’agit d’une approche valable pour relever les défis qui se posent actuellement à chacun d’entre nous.

Mais alors, assistons-nous à la fin de l’histoire de l’IA générative ? Si la puissance brute n’est plus un facteur différenciant, comment les LLM vont-ils pouvoir évoluer ?

3. La maîtrise des corpus de données

Si la puissance pure n’est plus le facteur dominant, les corpus de données deviennent un nouvel enjeu. Ce que Deepseek nous révèle, c’est que l’IA générative ne se définit pas seulement par ses capacités techniques, mais aussi et surtout par les sources d’information sur lesquelles elle s’appuie.

Par exemple, Deepseek est clairement aligné sur la ligne politique du pouvoir chinois. Des sujets comme Tian’anmen ou Taïwan sont traités avec un fort biais idéologique. De la même manière, Grok, l’IA d’Elon Musk, reflète fortement les orientations de Twitter. Ses réponses sont influencées par les données sur lesquelles il a été entraîné, donnant lieu à des biais spécifiques.

Or, en rendant l’opération d’IA génératives plus accessibles économiquement et techniquement, Deepseek ouvre la voie à la multiplication d’IA spécialisées sur un corpus, ce qui répond à un besoin très clair, comme le montre la pléthore d’articles et de POC sur la Retrieval Augmented Generation.

Deepseek rend ceci possible à un grand nombre d’organisations grâce à sa version open source hébergée localement qui se caractérise par :

  • Un contrôle total sur les inférences. Quand une organisation héberge le modèle Deepseek sur ses serveurs, aucunes données ne quittent l’infrastructure;
  • Aucun besoin de calcul externe. Le modèle génère ses réponses entièrement sur les serveurs qui l’hébergent. Encore une fois les données ne quittent pas l’infrastructure;
  • Une grande personnalisation. Il est possible d’intégrer des plugins externes ou d’autres fonctionnalités.

Ainsi, Deepseek permet l’émergence de modèles économiques viables pour l’IA générative. Malheureusement, c’est celui de la publicité qui semble s’imposer.

Perplexity a ouvert la voie en intégrant des liens sponsorisés dans ses réponses, rémunérant ainsi les éditeurs de contenus qui hébergent cette IA générative. Ce modèle devrait arriver sous peu en France : un partenariat avec Numérama a été signé. Cette approche rappelle le modèle de Google.

Pourtant, Google lui-même n’a pas été précurseur sur ce segment, un paradoxe surprenant pour l’entreprise qui a imposé le modèle de la régie publicitaire sur le web.

Ces alliances entre plateformes et IA indiquent une consolidation du marché autour des données propriétaires. Deepseek est donc certainement plus le marqueur de la maturité du marché des IA génératives qu’une innovation de rupture comme a pu l’être l’arrivée de Chat-GPT.

4. Une industrie qui se structure

En seulement deux ans et demi, et en contredisant presque le hype cycle de Gartner, l’IA générative est passée d’une technologie émergente à un outil du quotidien.

Le marché s’est structuré très rapidement autour :

  • D’acteurs établis et de stratégies claires. OpenAI, Google, Anthropic et maintenant Deepseek qui cherchent à se pérenniser;
  • De cas d’usage bien définis. L’IA générative a prouvé son utilité dans le traitement de gros corpus d’informations, l’assistance à la rédaction, la programmation et la création de contenu;
  • De limites mieux comprises. L’accent d’abord mis sur la puissance des modèles, est en passe de se tourner vers la qualité et la fiabilité de leurs réponses et donc sur la composition du corpus d’entraînement.

L’industrie de l’IA se structure aussi autour de contraintes exogènes comme les impératifs réglementaires qui se profilent comme, par exemple l’entrée en vigueur de l’IA Act européen le 02 février 2025.

L'IA Act encourage, entre autre, l'explicabilité des algorithmes d'IA pour garantir la transparence et la responsabilité. Cela permet de comprendre les raisons derrière les décisions prises par l'IA, d'identifier les biais potentiels, de détecter les erreurs et de garantir un usage responsable.

L’ère pionnière est déjà derrière nous. Les entreprises et les utilisateurs savent désormais ce qu’ils attendent des IA. Aux modèles de s’adapter en conséquence. Mais si l’IA générative entre dans une phase de maturité, cela signifie-t-il que nous avons atteint un plafond ? Pas du tout ! Une nouvelle rupture se profile déjà à l’horizon : l’IA agentique.

5. Un changement de paradigme

L’IA générative est réactive : elle répond aux requêtes de l’utilisateur, produit du texte, génère du code ou des images, mais elle n’agit pas par elle-même.

L’IA agentique, en revanche, va au-delà de la simple génération de contenu :

  • Elle peut recevoir des stimuli, les comprendre, et agir en conséquence;
  • Elle ne se contente plus de fournir une réponse, mais prend des décisions et exécute des actions;
  • Elle intègre des éléments de Robotic Process Automation (RPA) et d’automatisation des processus métiers.

Cela signifie qu’au lieu d’avoir une IA qui assiste passivement l’utilisateur, nous aurons des agents intelligents capables d’anticiper, d’organiser et d’exécuter des tâches de manière autonome.

L’IA agentique aura un impact direct et profond sur le monde du travail, notamment l’IT, même si comme l’IA générative, elle prendra peut-être du temps à s’enraciner dans les entreprises.

Aujourd’hui, le DevOps et le RPA permettent déjà des actions automatiques. Avec l’IA agentique, un système pourrait détecter une anomalie sans y avoir déjà été confrontée et même sans configuration préalable, analyser la cause, proposer une solution et l’appliquer de manière autonome.

Contrairement aux systèmes d’automatisation classiques qui suivent des règles strictes pré-codées, ces IA peuvent s’adapter à des situations inattendues ou inédites. Et avec l’IA agentique, ces systèmes ne se contenteront plus de répondre, mais pourront aussi exécuter des actions : traiter un ticket ou réinitialiser un service sans intervention humaine.

6. Des systèmes multi-agent

L’IA agentique ouvre donc la voie à des systèmes capables de hiérarchiser des tâches, allouer des ressources et exécuter des décisions de manière autonome.

Mais jusqu’où ira cette évolution ?

Pour l’instant, ces agents restent supervisés et opèrent dans des cadres bien définis.

À terme, des écosystèmes entiers gérés par des IA capables de collaborer entre elles, pourront prendre en charge des processus complexes avec peu ou pas d’intervention humaine. On commence d’ailleurs à voir des plateformes pour système d’IA multi-agents.

Si l’IA générative a changé notre manière de travailler et d’accéder à l’information, l’IA agentique va vraisemblablement transformer en profondeur notre conception des tâches pour accomplir nos missions.

La révolution Deepseek

Xavier Blary

Data Leader

LinkedIn IconEmail icon

Plus d'articles