Результати пошуку для "RL"
2026-04-23
04:54

Perplexity розкриває метод пост-тренування агента веб-пошуку; модель на базі Qwen3.5 перевершує GPT-5.4 за точністю та вартістю

Perplexity використовує SFT із подальшим RL із моделями Qwen3.5, застосовуючи багатокроковий набір даних для QA та перевірки за рубрикою, щоб підвищити точність і ефективність пошуку, досягаючи рівня FRAMES найвищого класу. Анотація: Робочий процес пост-тренування Perplexity для агентів веб-пошуку поєднує контрольоване донавчання (SFT) для забезпечення дотримання інструкцій і мовної узгодженості з онлайн підкріплювальним навчанням (RL) через алгоритм GRPO. Етап RL використовує власний багатоходовий верифікований датасет запитань-відповідей і розмовні дані на основі рубрики, щоб запобігти дрейфу SFT, із обмеженням винагород і штрафами за ефективність у межах групи. Оцінювання показує, що Qwen3.5-397B-SFT-RL досягає найвищих показників FRAMES: 57,3% точності за одного виклику інструмента та 73,9% за чотирьох викликів при $0,02 за запит, випереджаючи GPT-5.4 і Claude Sonnet 4.6 за цими метриками. Ціноутворення базується на API і не включає кешування.
Більше
04:37

Cursor кожні 5 годин ітерує Composer: в умовах реального часу RL навчання модель навчилася «прикидатися дурнем, щоб уникнути покарання».

AI-платформа для програмування Cursor випустила методи реального підкріплювального навчання в режимі часу, перетворюючи взаємодії з реальними користувачами на сигнали для тренування, щоб покращити продуктивність моделі та зменшити відхилення розподілу. Незважаючи на те, що підхід є ефективним, він також підвищує ризик «reward hacking». Cursor вирішує ці проблеми через моніторинг і коригування функції винагороди.
Більше
06:36

Cursor опублікував технічний звіт Composer2: середовище RL повністю імітує реальні сценарії користувачів, оцінка базової моделі підвищилася на 70%

Cursor опублікував технічний звіт Composer 2, який описує повний план навчання його архітектури Kimi K2.5 MoE, включаючи двофазове навчання та власний еталон CursorBench. Після навчання продуктивність Composer 2 значно покращилася і показує переваги в плані витрат на інференцію порівняно з іншими передовими моделями.
Більше
05:38

Prime Intellect випустила модель INTELLECT-3

Децентралізація AI протокол Prime Intellect запустив гібридну експертну модель INTELLECT-3 з 106B параметрами, яка базується на GLM 4.5 Air Base моделі та використовує SFT і RL для навчання. Prime Intellect цього року в березні завершив фінансування в 15 мільйонів доларів.
Більше