Луо Фули: Большие модели входят в эпоху постобучения, ведущие команды достигают соотношения вычислений 1:1 для предобучения и постобучения

Согласно мониторингу Dongcha Beating, руководитель команды больших моделей Xiaomi Лю Фули отметил, что конкуренция в области больших моделей сместилась с эпохи Chat, доминируемой предварительным обучением, к эпохе Агентов, доминируемой пост-обучением (Post-train). Текущий основной конкурентный момент — «как эффективно масштабировать обучение с подкреплением (RL) на Агентов». Этот сдвиг парадигмы напрямую привел к перестройке распределения вычислительных ресурсов. Лю сообщил, что во время эпохи Chat соотношение вычислений для исследований, предварительного обучения и пост-обучения составляло примерно 3:5:1; в то время как в нынешнюю эпоху Агентов разумное соотношение распределения вычислений стало 3:1:1, что означает, что инвестиции в вычислительные ресурсы для предварительного и пост-обучения теперь почти равны, а ведущие команды по моделям достигают соотношения 1:1 в своих инвестициях в эти две области. Кроме того, требования к архитектуре системы претерпели значительные изменения. Ранее инфраструктура RL в основном строилась вокруг «двигателей вывода модели», которые обрабатывали чисто текстовые вычисления; теперь инфраструктура должна быть сосредоточена вокруг «Агентов», поддерживая гетерогенное планирование кластеров и терпящее неоднозначность, связанную с возможностью прерывания Агентов в сложных рабочих процессах из-за различных неконтролируемых факторов.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить