Veille IA #18
Cette semaine, la veille IA est surtout marquée par des outils plus pratiques que spectaculaires : agents capables de travailler plus longtemps, génération visuelle plus fluide, exécution locale accélérée sur Mac, et premiers usages automatisés autour de la protection des données personnelles. Côté recherche, deux sujets rappellent surtout une chose : avant d’automatiser des tâches sensibles, il faut savoir mesurer précisément les limites des modèles.
Outils retenus
Claude Sonnet 5 : un modèle agentique plus accessible
Anthropic a annoncé Claude Sonnet 5, présenté comme un nouveau modèle agentique. L’intérêt principal, pour un lecteur technique, est moins le nom du modèle que le type de tâches qu’il vise : planification, usage d’outils comme un navigateur ou un terminal, et délégation de travaux longs.
En pratique, cela positionne Sonnet 5 comme une option à surveiller pour les équipes qui veulent confier davantage de séquences de travail à un agent sans basculer systématiquement vers les modèles les plus coûteux. Pour du développement, de la recherche documentaire, de l’analyse de dépôt ou de l’automatisation semi-supervisée, le point clé sera la fiabilité sur la durée : savoir si l’agent garde le fil, utilise correctement ses outils et produit un résultat vérifiable.
L’annonce a aussi été corroborée par Axios, ce qui en fait un signal suffisamment solide pour cette veille.
Nano Banana 2 Lite et Gemini Omni Flash : image, vidéo et édition dans Gemini
Google a ouvert Nano Banana 2 Lite et Gemini Omni Flash dans AI Studio et via l’API Gemini. Le sujet est intéressant pour les workflows créatifs et produit : génération d’image rapide, vidéo, édition, et enchaînement d’itérations.
Le détail le plus utile côté intégration est l’Interactions API, qui permet jusqu’à trois éditions séquentielles. Cela rend possible un flux plus naturel : générer une image, corriger un élément, ajuster une scène, puis produire une variante ou une courte vidéo. Pour des équipes qui prototypent des interfaces, des visuels marketing, des assets de formation ou des démonstrations, ce type de boucle réduit le coût de friction entre idée, correction et rendu.
La limite reste importante : Gemini Omni Flash est annoncé avec des générations limitées à 10 secondes. Il faut donc le voir comme un outil de séquences courtes, de prévisualisation ou de contenu fragmenté, plutôt que comme une solution de production vidéo longue.
Ollama 0.31 et Gemma 4 sur MLX : un vrai signal pour les agents locaux sur Mac
Ollama a publié une mise à jour autour de Gemma 4 sur MLX, avec une accélération annoncée jusqu’à environ 90 % sur un benchmark d’agent de code grâce à une prédiction multi-token auto-ajustée.
Pour les développeurs qui exécutent des modèles localement sur Apple Silicon, c’est probablement l’annonce la plus directement actionnable de la semaine. Les agents locaux ont souvent un problème simple : ils sont utiles, mais trop lents pour devenir un réflexe quotidien. Une amélioration sensible de la génération peut changer l’usage réel, surtout pour les tâches répétées comme lire un dépôt, proposer des modifications, générer des tests ou explorer plusieurs pistes de correction.
Ce n’est pas seulement une question de confort. Plus un agent local répond vite, plus il devient crédible dans des environnements où la confidentialité, le coût ou la latence empêchent d’envoyer chaque tâche vers un service distant.
Unbroker pour Hermes Agent : automatiser le retrait de données personnelles
Unbroker est un skill open source pour Hermes Agent qui cherche des données personnelles chez des data brokers et prépare des demandes de retrait. L’installation indiquée dans le rapport est :
hermes skills install official/security/unbroker
Le sujet compte parce qu’il applique les agents à un problème concret : réduire l’exposition de données personnelles dispersées sur des services tiers. Pour un lecteur technique, l’intérêt est double. D’un côté, c’est un exemple de tâche longue et administrative qui se prête bien à l’automatisation assistée. De l’autre, cela montre immédiatement les limites du terrain : des retours signalent déjà des blocages anti-bot.
La nouveauté datée du 3 juillet vient de SHL0MS sur X. À tester avec prudence donc, en gardant une supervision humaine et en vérifiant les demandes générées avant envoi.
Recherche
Avant de regarder les méthodes, il faut poser le problème simplement : les modèles d’IA sont de plus en plus utilisés comme assistants de raisonnement, mais les domaines scientifiques et médicaux tolèrent mal les réponses approximatives. Il ne suffit donc pas de savoir si un agent produit une réponse convaincante. Il faut mesurer s’il comprend une tâche ambiguë, s’il sait gérer des données imparfaites et s’il reconnaît ses limites.
GeneBench-Pro : mesurer les agents sur de vraies difficultés de bio-informatique
OpenAI a présenté GeneBench-Pro, un benchmark composé de 129 tâches de bio-informatique décrites comme difficiles, ambiguës et proches de situations réelles.
Ce qui change en pratique, c’est le type d’évaluation. Au lieu de tester seulement des exercices propres et bien cadrés, GeneBench-Pro cherche à mesurer le jugement scientifique des agents dans des contextes moins confortables. Le rapport indique que même GPT-5.6 Sol Pro reste à 31,5 %. Le signal est donc clair : l’intérêt du benchmark n’est pas de proclamer que la recherche biologique est automatisable, mais de quantifier les limites avant de déléguer davantage.
Pour les équipes techniques, c’est une bonne grille de lecture : dans les domaines scientifiques, la performance brute ne suffit pas. Il faut aussi tester l’ambiguïté, la robustesse et la capacité à ne pas surinterpréter.
Brain2Qwerty v2 : décoder du texte depuis des signaux cérébraux non invasifs
Meta a publié Brain2Qwerty v2, avec une page projet dédiée ici. Le travail porte sur le décodage de phrases à partir de signaux MEG non invasifs, avec 61 % d’exactitude moyenne et 78 % au mieux.
Le problème visé est simple à comprendre : permettre une forme de communication sans chirurgie, à partir de l’activité cérébrale. C’est prometteur, notamment pour les interfaces cerveau-texte, mais le rapport souligne une limite essentielle : le matériel reste lourd et l’approche n’est pas prête pour un usage quotidien.
Pour un lecteur technique, l’intérêt est donc moins dans une application immédiate que dans la trajectoire. Les modèles progressent dans leur capacité à relier signaux biologiques et langage, mais le passage du laboratoire à un outil utilisable reste encore loin.
Conclusion
À tester en priorité cette semaine : Gemini Omni Flash pour les workflows image vers vidéo, et Ollama avec Gemma 4 sur MLX si votre stack agentique tourne localement sur Mac.
Le fil conducteur est net : les annonces les plus utiles ne promettent pas seulement des modèles plus puissants, mais des boucles de travail plus concrètes. Agents plus accessibles, génération multimodale plus intégrée, exécution locale plus rapide et benchmarks plus exigeants : c’est là que l’IA devient vraiment mesurable pour les équipes techniques.