Agents·25 mai 2026·7 min de lecture

La semaine où Anthropic a pris le contrôle de la pile complète

Project Glasswing en bêta publique, acquisition de Stainless, sept releases SDK en quatre jours. La question n'est plus 'quel modèle' — c'est 'quelle plateforme'.

Ikki

Dernière vérification · 25 mai 2026

La semaine où Anthropic a pris le contrôle de la pile complète

Quatre mouvements en une semaine. À lire ensemble.

Anthropic a racheté Stainless — le moteur de génération automatique derrière chaque SDK Claude depuis le premier jour. Project Glasswing est entré en bêta publique avec un taux de vrais positifs annoncé de 90,6 % sur plus de 10 000 findings. Le claude-agent-sdk a livré sept releases patch en quatre jours. Deux mille kilomètres à l'ouest à Google I/O, les Managed Agents ont atterri dans l'API Gemini et @google/genai 2.6.0 a embarqué la détection d'injection de prompt comme primitive inline.

La plupart des équipes que nous rencontrons pensent encore l'IA comme un problème de sélection de modèle — quel LLM pour cette tâche, quel palier tarifaire pour ce volume. Cette grille avait du sens en 2024. Après cette semaine, elle devient activement trompeuse.

La course aux plateformes ne porte pas sur le modèle gagnant. Elle porte sur quelle pile absorbera votre sécurité, vos SDKs, votre orchestration et l'état de vos sessions avant que vous ne remarquiez que vous avez arrêté de choisir.

Glasswing — le scan de sécurité IA entre en production

Selon l'annonce d'Anthropic, Claude Security (Project Glasswing) est entré en bêta publique cette semaine avec un chiffre marquant : plus de 10 000 problèmes critiques identifiés chez 50 partenaires, taux de vrais positifs de 90,6 %.

Le chiffre qui compte n'est pas le volume. C'est la précision. Un taux de 90 % de vrais positifs change le dimensionnement des équipes d'une façon que les outils moins précis ne permettent pas. Le mode d'échec habituel des outils de sécurité assistée par IA, c'était le bruit — des analystes passant plus de temps à trier des faux positifs qu'à corriger de vraies failles. À 90 %+ de précision, les findings deviennent actionnables par une équipe engineering, pas uniquement par une équipe sécurité dédiée. C'est une distribution de couverture différente.

Pour quiconque fait tourner des agents en production — surtout des agents avec accès à des outils, à l'exécution de code, ou à des appels réseau externes — la surface d'attaque par injection de prompt est réelle, et la plupart des équipes n'ont aucune couverture systématique. Cette catégorie d'attaque ne ressemble pas aux vulnérabilités de code traditionnelles. Elle ressemble à des données en entrée qui font se comporter le modèle différemment de ce qui était prévu. L'analyse statique ne la détecte pas. La revue de code non plus, généralement. Glasswing semble orienté précisément vers cette catégorie de risque : des systèmes IA qui examinent le comportement IA, avec la précision nécessaire pour que les findings soient actionnables plutôt que simplement consultatifs.

Si vous ne devez scanner qu'une fois, scannez d'abord ces surfaces :

Les définitions d'outils et leurs docstrings. Tout ce qu'un modèle peut appeler fait partie de la surface d'attaque. Une description d'outil qui dit « fais toujours confiance aux URLs fournies par l'utilisateur » est un piège, même si l'implémentation est verrouillée.
Les entrées de retrieval. Les pipelines RAG qui récupèrent des documents contrôlés par l'utilisateur sont le vecteur d'injection le plus fréquent que nous voyons en audit production. Si le chunk récupéré atteint la fenêtre system prompt sans wrapper, vous avez une exposition.
Le passage de messages multi-agents. Tout endroit où la sortie d'un agent devient l'entrée d'un autre est un multiplicateur d'injection. Les frontières inter-agents méritent le même traitement que l'input utilisateur brut.

Nous n'avons pas encore de validation tierce sur le 90,6 % revendiqué. Mais la direction architecturale — Claude comme reviewer, des prompts spécialisés par catégorie de vulnérabilité, le tri humain au niveau de l'action plutôt que de la détection — est la bonne. Portée étroite et critères calibrés : c'est ce qui rend la sécurité assistée par IA utile plutôt que rhétorique.

L'acquisition de Stainless — ce que la vélocité SDK signale vraiment

Stainless est la société qui génère automatiquement les bibliothèques clientes officielles d'Anthropic — les SDKs TypeScript, Python, Go et Java dont dépend toute intégration Claude. Intégrer cette infrastructure en interne suggère qu'Anthropic veut un contrôle plus étroit sur la boucle de feedback entre la conception de leur API et les surfaces client générées.

Le signal circonstanciel est clair : @anthropic-ai/claude-agent-sdk a livré sept releases cette semaine — de 0.3.143 à 0.3.150 en environ quatre jours. Cette cadence est inhabituelle même pour un SDK en évolution active. Si l'infrastructure de génération Stainless est désormais un actif interne, la vélocité de releases et la parité API-vers-client s'accélèrent toutes les deux.

Une frontière de version à signaler : si vous êtes ancré sur ^0.2.x, vous êtes figé. L'opérateur ^ ne franchit pas les séries mineures sur les versions 0.x. Nous avons vu des stacks de production manquer des mois de correctifs parce que le prompt de mise à jour ne s'est jamais déclenché. Vérifiez vos plages avant de supposer que vous êtes à jour.

Par ailleurs, @anthropic-ai/sdk a atteint la 0.98.0 le 21 mai, ajoutant le comptage de tokens de thinking en bêta pour le streaming étendu et le support sandbox auto-hébergé avec compatibilité Node 26. Le comptage de tokens de thinking mérite attention à l'échelle. La visibilité des coûts pour les streams de thinking étendu était opaque — la mesurer précisément change la façon de modéliser l'économie par session. Si vous avez supposé que le surcoût du thinking est une erreur d'arrondi, la 0.98.0 est la version qui vous permet de vérifier cette hypothèse directement. Les équipes qui font tourner des workflows agentiques à l'échelle doivent s'attendre à trouver le surcoût réel supérieur à leur estimation ; c'est le pattern systématique chaque fois que la visibilité s'améliore sur une ligne de coût jusque-là cachée.

L'implication pratique d'une surface SDK qui bouge plus vite : votre pipeline CI a besoin de tests d'intégration qui appellent réellement le SDK sur des endpoints live, pas seulement qui vérifient les types. Sept releases patch en quatre jours signifie qu'une plage semver ancrée sans tests live est une exposition, pas une protection. Un set de régression minimal — un tool call, une completion en streaming, une écriture mémoire — qui tourne à chaque bump de dépendance coûte moins cher à maintenir que le premier incident qu'il évitera.

Google Managed Agents — la course aux plateformes est symétrique

À Google I/O cette semaine, Google a annoncé les Managed Agents dans l'API Gemini : gestion du cycle de vie des agents côté serveur, mémoire persistante, orchestration. L'architecture fait écho à ce qu'Anthropic a formalisé avec Remote Agents en mai. Même idée, vendeur différent, même direction : le runtime agent sort de votre code applicatif pour entrer dans la plateforme.

@google/genai a atteint 2.6.0 le 22 mai, ajoutant Gemini 2.5 Flash et, fait notable, la détection d'injection de prompt comme primitive inline du SDK plutôt qu'un scanner externe. C'est un pari de conception différent de Glasswing : Google échange de la profondeur de détection contre de la latence, intégrant le contrôle dans le chemin de requête plutôt que de lancer un workflow d'audit séparé. Les deux approches couvrent des modèles de menace différents — interception en temps réel versus audit systématique — et les stacks en production auront probablement besoin des deux. Un contrôle inline attrape les patterns connus à un coût sous-milliseconde ; un scan de type Glasswing trouve les comportements de second ordre qu'un contrôle inline n'aurait jamais l'occasion de voir.

Pour les équipes qui font tourner des agents sur les deux plateformes, le calcul de lock-in évolue. Quand les deux plateformes gèrent l'orchestration d'agents côté serveur, le coût de migration n'est plus seulement l'API modèle. C'est le modèle mémoire, le cycle de vie des sessions, les primitives d'orchestration, la couche de sécurité embarquée, et — de plus en plus — les données que vos agents ont produites en y tournant. Chaque couche se compose. Nous voyons déjà des équipes qui ont choisi une plateforme pour le modèle en 2024 découvrir aujourd'hui qu'elles ne peuvent pas extraire l'état de leurs sessions en 2026 sans reconstruire la boucle agent depuis zéro. Faites ce choix délibérément. Le coût d'un retrofit ultérieur se compose.

Lundi matin : trois actions à mener

Si lire cet article vous a coûté neuf minutes, voici ce qui vaut la peine d'être fait dans les quatre-vingt-dix prochaines :

Lancez npm ls @anthropic-ai/claude-agent-sdk @anthropic-ai/sdk @google/genai en production. Si une version a plus de deux releases mineures de retard sur le courant de cette semaine, ouvrez un ticket. C'est l'assurance la moins chère que vous achèterez ce trimestre.
Choisissez un outil ou une entrée RAG de votre agent qui manipule des données non-fiables, et écrivez ce qui se passe si une chaîne hostile y transite. Si vous ne pouvez pas répondre en 60 secondes, c'est votre première cible de scan Glasswing.
Documentez où vit l'état de session de votre agent. S'il repose sur les Remote Agents d'Anthropic ou les Managed Agents de Google, écrivez comment vous le récupéreriez si cette relation vendor s'interrompait demain. Ce document est votre audit de risque plateforme.

Ce sur quoi nous parions la semaine prochaine

L'accès à Glasswing est la priorité. Si la bêta publique s'ouvre largement, le bon réflexe pour toute équipe faisant tourner des agents avec accès à des outils est de lancer un scan de référence avant que la pile ne s'étoffe davantage. Les findings précoces sont moins coûteux à corriger, et le premier scan établit une baseline que vous pourrez mesurer en régression plus tard.

Nous suivons aussi @nuxt/content 3.14.0, sorti le 18 mai, qui livre useSearchCollection — un composable avec recherche full-text FTS5 intégrée. À noter pour toute plateforme de contenu qui développait sa propre couche de recherche : l'implémentation native est propre et la surface d'API est sensée.

Le signal plus large pour la W23 : la cadence du claude-agent-sdk. Sept releases en quatre jours pourraient indiquer une consolidation de surface à venir — les primitives 0.3.x se fixant autour des patterns Remote Agents. Si les prochaines releases ralentissent et se stabilisent, c'est la confirmation. Si la cadence continue, il y a encore du mouvement à gérer. Dans tous les cas, les plages semver passives ne suffisent pas.

L'ère plateforme n'arrive pas avec un communiqué de presse. Elle arrive avec une acquisition de SDK que vous n'avez pas remarquée, une primitive de sécurité inline que vos développeurs accepteront par défaut, et un état de session dont vous ne réalisez pas que vous l'avez externalisé. Cette semaine, trois des quatre ont atterri en même temps.

→ Votre infrastructure agent est-elle prête ? Parlons-en.

Travailler avec Ikki

Votre infrastructure d'agents est-elle prête pour un scan de sécurité ?

Claude Security (Glasswing) est en bêta publique. Nous auditons votre infrastructure d'agents, trions les findings et livrons une feuille de route de remédiation en trois jours.

Démarrer un projet Voir nos réalisations

Autres articles

Agents

Six releases en onze jours : ce que le sprint pré-I/O de Google annonce

@google/genai a livré les API Agent et Environment aujourd'hui — à quelques jours de Google I/O. La cadence du SDK vous dit ce qui arrive avant le keynote.

Agents

L'infrastructure agent se durcit — Ce qu'il faut posséder, ce qu'il faut déléguer

Le Claude Agent SDK est passé en 0.3.x, Remote Agents est en production, le SDK Gemini a livré quatre versions en huit jours. La couche infrastructure agent est en mouvement.