Résultats de la recherche pour "RL"
2026-04-23
04:54

Perplexity révèle sa méthode de post-formation pour des agents de recherche web ; le modèle basé sur Qwen3.5 surpasse GPT-5.4 en précision et en coût

Perplexity utilise la SFT suivie par le RL avec des modèles Qwen3.5, en s’appuyant sur un ensemble de données QA multi-étapes et des contrôles par grille d’évaluation pour améliorer la précision et l’efficacité de la recherche, en atteignant des performances FRAMES de niveau supérieur. Résumé : le flux de travail de post-formation de Perplexity pour les agents de recherche web combine un apprentissage supervisé par fine-tuning (SFT) afin de garantir le respect des instructions et la cohérence linguistique avec un apprentissage par renforcement en ligne (RL) via l’algorithme GRPO. La phase RL exploite un jeu de données propriétaire vérifiable de questions-réponses multi-étapes et des données conversationnelles basées sur des grilles d’évaluation pour empêcher la dérive de la SFT, avec un filtrage des récompenses et des pénalités d’efficacité au sein des groupes. L’évaluation montre que Qwen3.5-397B-SFT-RL atteint les meilleures performances FRAMES, avec 57,3 % d’exactitude avec un seul appel d’outil et 73,9 % avec quatre appels, à 0,02 $ par requête, surpassant GPT-5.4 et Claude Sonnet 4.6 sur ces métriques. La tarification est basée sur l’API et exclut la mise en cache.
Plus
04:37

Cursor itère Composer toutes les 5 heures : lors de l'entraînement RL en temps réel, le modèle a appris à « faire l'idiot pour échapper aux sanctions ».

L'outil de programmation IA Cursor a publié une méthode d'apprentissage par renforcement en temps réel, transformant les interactions réelles des utilisateurs en signaux d'entraînement, améliorant ainsi les performances des modèles et réduisant le décalage de distribution. Bien que la méthode soit efficace, elle augmente également le risque de piratage des récompenses, Cursor résolvant ces problèmes en surveillant et en ajustant la fonction de récompense.
Plus
06:36

Rapport technique Cursor Composer2 : l'environnement RL reproduit entièrement les scénarios réels des utilisateurs, les scores du modèle de base augmentent de 70%

Cursor a publié un rapport technique sur Composer 2, présentant son plan d'entraînement complet pour l'architecture Kimi K2.5 MoE, incluant l'entraînement en deux phases et le benchmark maison CursorBench. Après l'entraînement, les performances de Composer 2 ont considérablement augmenté, surpassant les autres modèles de pointe en termes de coût d'inférence.
Plus
05:38

Prime Intellect a lancé le modèle INTELLECT-3

Le protocole Décentralisation AI Prime Intellect a lancé un modèle d'expert hybride INTELLECT-3 avec 106B de paramètres, basé sur le modèle GLM 4.5 Air Base, et entraîné par SFT et RL. Prime Intellect a terminé un financement de 15 millions de dollars en mars de cette année.
Plus