Ramp Labs propose une nouvelle solution de partage de mémoire entre agents multiples, réduisant la consommation de tokens maximale de 65%

GateNews

Nouvelles de la Gate News : le 11 avril, la société d’infrastructure IA Ramp Labs a publié ses résultats de recherche « Latent Briefing ». En compressant directement le cache KV des grands modèles, elle permet un partage efficace de la mémoire entre systèmes multi-agents, tout en réduisant fortement la consommation de Tokens sans perte de précision. Dans les architectures multi-agents courantes, l’orchestrateur (Orchestrator) décompose les tâches et appelle de manière répétée le modèle de travail (Worker). À mesure que la chaîne d’inférence s’allonge, la quantité de Tokens augmente de façon exponentielle. L’idée centrale de Latent Briefing consiste à utiliser le mécanisme d’attention pour repérer, dans le contexte, les parties réellement essentielles, puis à supprimer directement les informations redondantes au niveau de la représentation, plutôt que de s’appuyer sur des résumés de LLM lents ou sur des recherches RAG peu stables. Lors des tests sur le banc LongBench v2, la méthode obtient d’excellents résultats : la consommation de Tokens du modèle Worker baisse de 65 %, et pour les documents de longueur moyenne (32k à 100k), le gain médian de Tokens atteint 49 %. Dans l’ensemble, la précision s’améliore d’environ 3 points par rapport à la base de référence, tandis que le surcoût de temps induit par chaque compression ne représente qu’environ 1,7 seconde, soit un gain de vitesse d’environ 20 fois par rapport à l’algorithme original. L’expérience utilise Claude Sonnet 4 comme orchestrateur et Qwen3-14B comme modèle Worker, couvrant des scénarios de documents variés : articles académiques, actes et documents juridiques, romans et rapports gouvernementaux. L’étude montre également que le seuil optimal de compression varie selon la difficulté de la tâche et la longueur du document : les cas difficiles se prêtent à une compression plus agressive pour filtrer le bruit de raisonnement spéculatif, tandis que les documents longs sont mieux servis par une compression légère afin de préserver des informations clés dispersées.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Brèche de sécurité chez Vercel : s’étend à des centaines d’utilisateurs ; les développeurs IA à plus haut risque

Message de Gate News, 23 avril — Vercel a révélé le 19 avril que son incident de sécurité, initialement décrit comme touchant un « sous-ensemble limité de clients », s’est étendu à une communauté de développeurs bien plus large, en particulier ceux qui construisent des flux de travail d’agents IA. L’attaque peut toucher des centaines d’utilisateurs

GateNewsIl y a 47m

OpenAI lance GPT-5.5 : 12M de contexte, l’indice AA atteint le sommet, Terminal-Bench 82,7 % reconfigure la référence des agents

OpenAI publie GPT-5.5, axé sur le travail basé sur des agents et le traitement des connaissances en entreprise, et le lance simultanément dans ChatGPT et Codex. Les points clés incluent une fenêtre contextuelle de 12 millions de tokens, l’AA Intelligence Index 60, en avance sur Claude Opus 4.7 et Gemini 3.1 Pro ; le prix est de 5 dollars pour l’entrée de 1 million de tokens et de 30 dollars pour la sortie de 1 million de tokens, la sortie de tokens diminuant d’environ 40 %, tandis que le coût réel augmente d’environ 20 %.

ChainNewsAbmediaIl y a 1h

MagicBlock lance Mirage, un outil de paiement de confidentialité en ligne de commande pour Solana

Message d’actualité Gate News, 23 avril — MagicBlock a publié Mirage, un outil de paiement de confidentialité en ligne de commande conçu pour le réseau Solana. L’outil permet aux utilisateurs de créer des portefeuilles, d’y déposer des fonds et d’envoyer des transactions privées via des commandes de terminal, des bots ou des agents IA. Mirage est construit sur Private

GateNewsIl y a 5h

OpenClaw 2026.4.22 unifie le cycle de vie des plugins entre les harness Codex et Pi, réduisant le temps de chargement des plugins jusqu’à 90 %

Message de Gate News, 23 avril — OpenClaw, une plateforme open source d’agent IA, a publié la version 2026.4.22 le 22 avril, dont le plus grand changement est l’alignement des cycles de vie du harness Codex et du harness Pi. Auparavant, les plugins se comportaient de façon incohérente entre les deux voies de harness, certains hooks étant absents dans certains environnements. La nouvelle version consolide les hooks critiques, notamment before_prompt_build, before_compaction/after_compaction, after_tool_call, before_message_write, et llm_input/llm_output/agent_end, éliminant la nécessité pour les développeurs de maintenir des implémentations distinctes pour chaque voie. La mise à jour introduit aussi la prise en charge du middleware async tool_result pour les extensions de plugin côté Codex. Les améliorations de performance sont considérables : le chargement des plugins utilise désormais Jiti natif, réduisant le temps de démarrage de 82 % à 90 %, tandis que l’exécution de doctor --non-interactive a diminué d’environ 74 %. Le niveau de réflexion par défaut pour les modèles d’inférence a été relevé de désactivé/faible à moyen, permettant des sorties de raisonnement par défaut pour les configurations non modifiées. D’autres correctifs incluent le fait que les appels d’agent multi-tours de Kimi K2.6 n’interrompent plus en raison d’une corruption de l’ID tool_call, une meilleure gestion de la mémoire des sous-processus Linux avec un ajustement automatique de oom_score_adj, et un nouveau système de récupération de configuration last-known-good pour empêcher que les crashs de Gateway ne soient causés par des écrasements accidentels de configuration. Les nouvelles intégrations de fournisseurs incluent la génération d’images de xAI grok-imagine-image et grok-imagine-image-pro, ainsi que les capacités TTS et STT ; Tencent Cloud en tant que plugin fournisseur officiel avec des modèles de prévisualisation Hy3 et une tarification ; et l’outil natif web_search d’OpenAI, remplaçant le canal de recherche géré d’OpenClaw lorsque la recherche web est activée.

GateNewsIl y a 6h

Google Cloud et CVC s’associent pour accélérer la transformation par agents IA pour les sociétés du portefeuille

Message de Gate News, le 23 avril — Google Cloud et le géant du capital-investissement CVC ont annoncé un partenariat stratégique afin d’accélérer la transformation par agents IA pour CVC et des centaines d’entreprises au sein de son portefeuille d’investissement. La collaboration tirera parti de la plateforme d’intelligence artificielle de Google Cloud et

GateNewsIl y a 9h
Commentaire
0/400
Aucun commentaire