Согласно мониторингу Dongcha Beating, руководитель команды больших моделей Xiaomi Лю Фули отметил, что конкуренция в области больших моделей сместилась с эпохи Chat, доминируемой предварительным обучением, к эпохе Агентов, доминируемой пост-обучением (Post-train). Текущий основной конкурентный момент — «как эффективно масштабировать обучение с подкреплением (RL) на Агентов». Этот сдвиг парадигмы напрямую привел к перестройке распределения вычислительных ресурсов. Лю сообщил, что во время эпохи Chat соотношение вычислений для исследований, предварительного обучения и пост-обучения составляло примерно 3:5:1; в то время как в нынешнюю эпоху Агентов разумное соотношение распределения вычислений стало 3:1:1, что означает, что инвестиции в вычислительные ресурсы для предварительного и пост-обучения теперь почти равны, а ведущие команды по моделям достигают соотношения 1:1 в своих инвестициях в эти две области. Кроме того, требования к архитектуре системы претерпели значительные изменения. Ранее инфраструктура RL в основном строилась вокруг «двигателей вывода модели», которые обрабатывали чисто текстовые вычисления; теперь инфраструктура должна быть сосредоточена вокруг «Агентов», поддерживая гетерогенное планирование кластеров и терпящее неоднозначность, связанную с возможностью прерывания Агентов в сложных рабочих процессах из-за различных неконтролируемых факторов.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
WCTCTradingKingPK
281.79K Популярность
#
比特币Breaks79K
11.68M Популярность
#
IsraelStrikesIranBTCPlunges
34.3K Популярность
#
CryptoMarketsRiseBroadly
89.86K Популярность
#
WHCADinnerShootingIncident
15.48K Популярность

Закрепить

Карта сайта

Луо Фули: Большие модели входят в эпоху постобучения, ведущие команды достигают соотношения вычислений 1:1 для предобучения и постобучения

Популярные темы

WCTCTradingKingPK

比特币Breaks79K

IsraelStrikesIranBTCPlunges

CryptoMarketsRiseBroadly

WHCADinnerShootingIncident

Закрепить