Nouveautés de Qwen 3

La course mondiale à l'IA s'accélère. Des instituts de recherche, des entreprises privées et même des nations entières se disputent aujourd'hui le leadership dans le domaine de l'IA. D'une manière générale, cette course peut être divisée en plusieurs phases. La première étape a consisté à créer une IA étroite. Les modèles de réseaux neuronaux existants tels que GPT, MidJourney et AlphaFold montrent que cette étape a été franchie avec succès.
L'étape suivante envisage l'évolution de l'IA vers l'AGI (Intelligence Générale Artificielle). L'AGI devrait égaler l'intelligence humaine dans la résolution d'un large éventail de tâches, depuis l'écriture d'histoires et les calculs scientifiques jusqu'à la compréhension de situations sociales et l'apprentissage autonome. À l'heure où nous écrivons ces lignes, ce niveau n'a pas encore été atteint.
Le stade ultime du développement de l'IA est appelé ASI (Artificial Super Intelligence). Elle dépasserait de loin les capacités humaines dans tous les domaines. Elle permettrait de développer des technologies que nous ne pouvons même pas imaginer aujourd'hui et de gérer des systèmes globaux avec une précision dépassant les capacités humaines. Toutefois, cela ne pourrait devenir une réalité qu'après des décennies (voire des siècles) de progrès continus.
C'est pourquoi la plupart des participants à la course à l'IA s'efforcent d'atteindre l'AGI tout en gardant le contrôle sur elle. Le développement de l'AGI est étroitement lié à une série de défis techniques, éthiques et juridiques complexes. Néanmoins, les bénéfices potentiels dépassent largement les coûts, ce qui explique pourquoi des entreprises comme Alibaba Group investissent massivement dans ce domaine.
La sortie de Qwen 3 marque une étape importante non seulement pour les réseaux neuronaux d'une entreprise, mais aussi sur la scène mondiale. Par rapport à son prédécesseur, le modèle introduit plusieurs innovations importantes.
Caractéristiques
Qwen 2.5 a été pré-entraîné sur un ensemble de données de 18 milliards de jetons, alors que le nouveau modèle a doublé cette quantité pour atteindre 36 milliards de jetons. Le plus grand ensemble de données a considérablement amélioré la précision du modèle de base. Il est intéressant de noter qu'en plus des données Internet accessibles au public recueillies par l'analyse syntaxique, le système a également été entraîné sur des documents PDF. Ces documents sont généralement bien structurés et riches en connaissances, ce qui permet au modèle de fournir des réponses plus précises et de mieux comprendre les formulations complexes.
L'une des orientations les plus prometteuses du développement de l'IA est la construction de modèles capables de raisonner, qui peuvent élargir le contexte de la tâche grâce à un processus itératif. D'une part, cela permet une résolution plus complète des problèmes, mais d'autre part, le raisonnement a tendance à ralentir considérablement le processus. C'est pourquoi les développeurs de Qwen 3 ont introduit deux modes de fonctionnement :
- Thinking mode. Le modèle construit le contexte étape par étape avant de fournir une réponse finale. Cela permet d'aborder des problèmes complexes qui nécessitent une compréhension approfondie.
- Non-thinking mode. Le modèle répond presque instantanément mais peut produire des réponses plus superficielles sans analyse approfondie.
Ce contrôle manuel du comportement du modèle améliore l'expérience de l'utilisateur pour de nombreuses tâches de routine. La réduction de l'utilisation du mode réflexion diminue également de manière significative la charge du GPU, ce qui permet de traiter plus de jetons dans le même laps de temps.
Outre ce choix binaire, il existe également un mécanisme de commutation douce. Ce comportement hybride permet au modèle de s'adapter au contexte en utilisant des mécanismes de pondération internes. Si le modèle estime qu'une tâche est difficile, il déclenchera automatiquement un raisonnement ou même une auto-vérification. Il peut également répondre à des signaux de l'utilisateur tels que "Réfléchissons étape par étape".
Une autre amélioration significative est l'extension de la prise en charge multilingue. Alors que Qwen 2.5 ne prenait en charge que 29 langues, la version 3 peut désormais comprendre et générer du texte dans 119 langues et dialectes. Cela a considérablement amélioré le suivi des instructions et la compréhension du contexte. Par conséquent, Qwen 3 peut désormais être utilisé efficacement dans des environnements non anglophones.
En outre, Qwen 3 est désormais beaucoup mieux intégré aux serveurs MCP, ce qui permet au modèle d'approfondir la résolution des problèmes et d'exécuter des actions. Il peut désormais interagir avec des sources externes et gérer directement des processus complexes.
Formation au modèle
Préformation
Un tel bond en avant n'aurait pas été possible sans un système de formation en plusieurs étapes. Dans un premier temps, le modèle a été pré-entraîné sur 30B tokens avec une longueur de contexte de 4K, ce qui lui a permis d'acquérir des connaissances générales et des compétences linguistiques de base.
Cette étape a été suivie d'une phase d'affinement à l'aide de données plus scientifiques et mieux structurées. Au cours de cette étape, le modèle a également acquis la capacité d'écrire efficacement des applications dans plusieurs langages de programmation.
Enfin, il a été entraîné sur un ensemble de données de haute qualité avec un contexte étendu. Par conséquent, Qwen 3 prend désormais en charge une longueur de contexte effective de 128 000 tokens, soit environ 350 pages de texte dactylographié, en fonction de la langue. Par exemple, les langues basées sur le cyrillique ont souvent des tokens plus courts en raison de la morphologie et de l'utilisation de préfixes, de suffixes, etc.
Pipeline de raisonnement
La construction de modèles capables de raisonner est un processus fascinant mais laborieux qui combine plusieurs techniques existantes visant à simuler la pensée humaine. Sur la base des informations publiquement disponibles, nous pouvons supposer que la formation au raisonnement de Qwen 3 s'est déroulée en quatre étapes principales :
- Cold start for long chains of thought. Entraînement du modèle à décomposer les problèmes en plusieurs étapes sans adaptation préalable. Cela l'aide à apprendre la pensée itérative et à développer une couche de base de compétences de raisonnement.
- Reinforcement learning based on reasoning. À ce stade, les récompenses dépendent non seulement de la réponse finale, mais aussi de la manière dont le modèle construit des chaînes de raisonnement logiques, interprétables et structurées. L'absence d'erreurs et d'hallucinations est également évaluée.
- Merging reasoning modes. L'être humain s'appuie généralement sur deux styles de pensée : rapide (intuitif) et lent (analytique). En fonction du type de tâche, le modèle neuronal doit apprendre à passer d'un style à l'autre et à les intégrer. Cela se fait généralement à l'aide d'exemples qui mélangent les deux styles ou par le biais de jetons spéciaux indiquant le style à appliquer.
- General reinforcement learning. Cette dernière étape ressemble à un environnement de bac à sable où le modèle apprend à interagir avec des outils, à effectuer des tâches en plusieurs étapes et à développer un comportement adaptatif. C'est également à ce stade qu'il s'adapte aux préférences de l'utilisateur.
Conclusion
Qwen 3 est une étape importante pour Alibaba Group. Sa qualité de formation et sa méthodologie en font un concurrent sérieux face à des acteurs établis comme OpenAI et Anthropic. Les améliorations par rapport à la version précédente sont substantielles.
Un avantage supplémentaire est sa nature open-source, avec la base de code disponible publiquement sur GitHub sous la licence Apache 2.0.
La poursuite du développement de la famille de modèles Qwen contribuera à renforcer sa position dans l'arène mondiale de l'IA et à réduire l'écart avec les modèles commerciaux à source fermée. Toutes les réalisations actuelles sont, d'une manière ou d'une autre, des étapes vers le progrès de l'humanité dans la construction de l'AGI.
Voir aussi :
Publié: 14.07.2025