Veille IA #3
La semaine du 15 au 21 mars 2026 s’est jouée en grande partie autour de NVIDIA GTC. Deux acteurs ont profité de la scène pour lancer des modèles hardware-efficient destinés à réduire les coûts d’inférence sans trop sacrifier les performances. Mistral a aussi publié Leanstral, un agent spécialisé pour Lean 4, qui déplace le débat vers les assistants de code capables de prouver formellement ce qu’ils produisent. En parallèle, une publication dans Nature Machine Intelligence pose une brique importante pour les environnements réglementés.
Outils retenus
Mistral Small 4 — open-source, lancé le 17 mars
Mistral a présenté Small 4 lors du GTC en partenariat avec NVIDIA. Le modèle repose sur une architecture Mixture-of-Experts : 119 milliards de paramètres au total, 128 experts, mais seule une fraction est activée par inférence — ce qui le rend significativement moins coûteux à faire tourner qu’un dense de taille équivalente.
Le positionnement est explicite : concurrent direct de GPT-5.4 mini sur le segment des modèles économiques. Pour les équipes qui cherchent une alternative open-source à héberger elles-mêmes, c’est un candidat sérieux à benchmarker sur leurs propres charges de travail.
Source : TechCrunch, 17 mars 2026
GPT-5.4 mini et nano — OpenAI, 17 mars
OpenAI a lancé le même jour deux variantes basse-coût de GPT-5.4. La version mini affiche un écart de performance de -5 % sur SWE-Bench Pro par rapport au modèle plein — une concession raisonnable pour un coût d’inférence réduit. La version nano cible des tâches plus ciblées : extraction d’information, classification, codage simple.
Ces deux modèles s’adressent directement aux cas d’usage où le coût à la requête prime sur la performance maximale. Combinés à Mistral Small 4, ils dessinent une nouvelle génération de modèles économiques capables de remplacer les meilleurs modèles de 2025 sur la majorité des tâches courantes.
Source : SiliconANGLE, 17 mars 2026
Mistral Moderation 2603 — 17 mars
Moins visible que Small 4, Mistral a aussi mis à jour son modèle de modération. Les apports principaux : fenêtre de contexte portée à 128 000 tokens, nouvelles catégories de détection, et surtout la possibilité de configurer les guardrails par agent. Ce dernier point est pertinent pour les architectures multi-agents où chaque composant peut avoir des règles de modération distinctes selon son rôle.
Source : Mistral changelog
Leanstral — Mistral, 16 mars
Mistral a publié Leanstral, présenté comme le premier agent de code open-source conçu pour Lean 4, un proof assistant utilisé pour formaliser des preuves mathématiques et des spécifications logicielles. Le modèle est spécialisé plutôt que généraliste : architecture sparse avec 6 milliards de paramètres actifs, publication des poids sous licence Apache 2.0, disponibilité dans Mistral Vibe et via un endpoint API labs-leanstral-2603.
Ce qui rend la sortie intéressante n’est pas seulement le support de Lean 4, mais le positionnement produit. Mistral vise explicitement un assistant capable non seulement d’écrire du code ou des preuves, mais aussi de les vérifier dans un environnement où le compilateur et le proof checker servent d’oracle. C’est un cas d’usage très différent du coding assistant généraliste : moins de latitude créative, mais un feedback machine beaucoup plus fiable.
Mistral met aussi en avant un argument coût/performance crédible pour ce niche. Sur son benchmark FLTEval, Leanstral pass@2 atteint 26,3, au-dessus de Sonnet 4.6, avec un coût annoncé de 36 $ contre 549 $ pour Sonnet. Opus reste devant en qualité, mais avec un coût beaucoup plus élevé. Pour toute équipe qui travaille sur des assistants formels, de la vérification ou du proof engineering, c’est probablement la vraie annonce Mistral la plus originale de la semaine.
Source : Mistral AI, 16 mars 2026
Claude Cowork Dispatch — research preview, 17 mars
Anthropic a ouvert une research preview de Cowork Dispatch aux abonnés Max. Le concept : piloter des tâches desktop depuis le téléphone, de manière asynchrone, avec un traitement local sur la machine cible. L’idée est intéressante — déléguer une tâche longue depuis un mobile sans garder une session active.
Le taux de fiabilité annoncé est d’environ 50 % sur les tâches complexes. Anthropic le dit clairement : ce n’est pas encore adapté aux usages critiques. À surveiller pour la progression de la fiabilité dans les prochaines versions, pas à déployer en production aujourd’hui.
Source : Geeky Gadgets
Recherche
Apprentissage par renforcement sur données entièrement chiffrées — UTS / Nature Machine Intelligence, 18 mars
L’Université de Technologie de Sydney a publié dans Nature Machine Intelligence le premier framework de Deep Reinforcement Learning fonctionnant intégralement sur des données chiffrées par chiffrement homomorphe (FHE — Fully Homomorphic Encryption).
Le problème que ça résout. Dans de nombreux contextes réglementés — santé, finance, ressources humaines — les données sensibles ne peuvent légalement pas être déchiffrées pour être traitées, même temporairement. Jusqu’ici, cela rendait l’entraînement de modèles IA sur ces données quasiment impraticable.
L’idée clé. Le FHE permet d’effectuer des calculs directement sur des données chiffrées, sans jamais les déchiffrer. Les chercheurs de l’UTS ont montré qu’il est possible d’y faire tourner un pipeline complet de reinforcement learning — boucle d’entraînement incluse.
Ce que les auteurs montrent. La perte de précision est contenue à -10 % par rapport à un entraînement sur données en clair. C’est un écart mesurable, mais qui reste dans une fourchette acceptable pour de nombreuses applications où la conformité réglementaire est non négociable.
Pourquoi c’est important. Ce n’est pas un résultat théorique de plus sur le FHE. C’est une démonstration appliquée sur un type d’apprentissage — le RL — réputé particulièrement gourmand en calcul et donc difficile à faire passer sous chiffrement. Si ce framework se généralise, il ouvre la voie à des IA entraînables dans des environnements où la donnée ne sort jamais en clair.
Limites à garder en tête. Les coûts de calcul du FHE restent élevés. Le -10 % de précision peut être rédhibitoire selon l’application. Et les conditions expérimentales ne couvrent pas encore tous les types de tâches RL. C’est un signal structurant, pas un déploiement clé en main.
Source : UTS, 18 mars 2026
Ce qu’on en retient
Deux tendances se confirment cette semaine. Côté modèles, la compression intelligente — MoE, variantes nano — est désormais le terrain où se joue la compétition sur les coûts d’inférence. Mistral Small 4 et GPT-5.4 mini/nano méritent un benchmark rapide si vous dimensionnez une infrastructure IA aujourd’hui.
Côté recherche, le travail de l’UTS sur FHE et RL est le type de résultat à garder en radar : pas immédiatement déployable, mais potentiellement structurant pour tout projet IA dans un secteur réglementé. La question de “comment entraîner sans voir la donnée” va continuer à monter. Et côté produit, Leanstral rappelle qu’il y a aussi de la place pour des agents très spécialisés, là où la vérification formelle vaut plus qu’un modèle généraliste “un peu bon partout”.