Titre RNCP Niveau 7

Maîtrisez pipelines, cloud & IA pour devenir Data Engineer opérationnel.

Devenez Data Engineer

Formations

Advanced

9 mois

Mastère Modern Data Engineer

Construisez des pipelines de données robustes, scalables et prêts pour la production. Devenez un ingénieur data capable de concevoir, déployer et industrialiser des architectures modernes cloud & Big Data.

Découvrir la formation

Toutes nos formations →

L'équipe La plateforme

Offre entreprises

🇫🇷

🇫🇷Français

🇬🇧Anglais

MoE, MTP et 128K tokens : Ce que DeepSeek V3-0324 change vraiment !

Artificial Intelligence

LLM

MoE, MTP et 128K tokens : Ce que DeepSeek V3-0324 change vraiment !

Ingénieur de formation

Aicha Bouchti

Publié le 26 mars 2025 · 3 min de lecture

Table de matières

Partager avec

L’univers des grands modèles de langage (LLMs) open-source est en pleine effervescence, avec des avancées rapides sur les performances, l’accessibilité et la spécialisation des modèles. C’est dans ce contexte que DeepSeek V3-0324, dévoilé le 25 mars 2025, s’impose comme une évolution stratégique et ambitieuse du modèle DeepSeek V3 initialement lancé en décembre 2024. Bien qu’il s’agisse d’une mise à jour mineure sur le papier, cette version apporte des améliorations majeures sur le plan technique, fonctionnel et applicatif.

Le modèle DeepSeek V3-0324 ne se contente pas d’ajouter quelques paramètres ou d’optimiser sa vitesse : il redéfinit les standards de l’open-source grâce à son architecture intelligente, sa capacité de traitement de contexte élargie, sa vitesse de génération accrue et sa précision dans des domaines clés tels que le raisonnement, le codage ou encore l’analyse de texte multilingue. Ce modèle vise ainsi à combler le fossé entre l’innovation des modèles fermés et l’accessibilité des solutions open-source.

Une architecture optimisée pour des performances accrues

Le modèle DeepSeek V3-0324 incarne la dernière évolution de la gamme DeepSeek, en renforçant son ambition de proposer un modèle de langage open-source à la pointe de la technologie. Cette version s'inscrit dans une dynamique d'amélioration continue avec un passage notable de 671 milliards à 685 milliards de paramètres.

Cette augmentation de paramètres s'accompagne de l'utilisation du mécanisme MoE (Mixture of Experts), qui active dynamiquement les experts les plus pertinents pour chaque requête. Le résultat ? Une efficacité accrue sans surcoût exponentiel en calcul.

Autre atout marquant : la capacité contextuelle étendue à 128 000 tokens, soit environ 192 pages A4 de texte, ce qui le positionne parmi les modèles les plus robustes pour le traitement de documents longs.

DeepSeek V3-0324 intègre une fonctionnalité clé : le Multi-Token Prediction (MTP). Cette approche permet de générer plusieurs tokens par cycle de prédiction, offrant une accélération de 1,8× par rapport à la version précédente, avec une sortie moyenne de 60 tokens par seconde.

🔍 Envie de mieux comprendre les architectures comme DeepSeek ou d’en créer vous-même ?

Des améliorations fonctionnelles dans les domaines stratégiques

L’amélioration des performances n'est pas que théorique. Elle est validée par des benchmarks clés :

Raisonnement : MMLU-Pro passe de 75.9 à 81.2, GPQA de 59.1 à 68.4, et AIME bondit de 39.6 à 59.4.
Codage : Le modèle excelle sur LiveCodeBench avec un gain de 10 points, atteignant 92 % d'efficacité dans la génération de code structuré et le débogage.
Langue chinoise : Les performances ont été optimisées pour mieux répondre aux requêtes complexes, en s’alignant sur le style R1.

DeepSeek V3-0324 est pensé pour être facilement adopté dans les environnements existants. Le prompt système par défaut reste compatible avec les versions antérieures.

Côté température (paramètre de contrôle de la créativité) :

En API, la température par défaut est de 1.0 mais convertie à 0.3 pour ce modèle afin d'assurer une meilleure précision.
Sur web/app, la température est fixée à 0.3.

Open-source mais aussi commercialisable via API

DeepSeek V3-0324 reste open-source, avec les modèles et les papiers techniques disponibles publiquement sur GitHub.

Pour les entreprises ou développeurs souhaitant exploiter l'API, la tarification est la suivante :

Cache miss : 0,27 $/million de tokens
Cache hit : 0,07 $/million de tokens
Sortie : 1,10 $/million de tokens

Ces tarifs positionnent DeepSeek comme une alternative très compétitive sur le marché face à des modèles commerciaux fermés.

Limitations actuelles et perspectives à venir

Bien que riche fonctionnellement, cette version ne prend pas encore en charge la multimodalité (texte + image, audio, etc.). Cependant, les développeurs ont annoncé que des versions futures intégreront la compatibilité multimodale et poursuivront les optimisations structurelles.

Conclusion

DeepSeek V3-0324 marque une étape décisive dans la course aux grands modèles de langage open-source. Son architecture MoE, combinée au Multi-Token Prediction, en fait un outil puissant, rapide et adapté aux cas d’usage exigeants comme le codage, le raisonnement avancé et l’analyse documentaire. Avec une stratégie open-source assumée et une offre API compétitive, DeepSeek poursuit sa montée en puissance face aux mastodontes du secteur.

Partager avec

💙 Merci d'avoir parcouru l'article jusqu'à la fin !

Aicha Bouchti - Ingénieur de formation

Ingénieur de formation avec plus de 6 ans d'expérience dans le développement back-end et le data engineering. Expert dans l’industrialisation des projets data dans le cloud.

» En savoir plus