Фьючерсы
Доступ к сотням фьючерсов
TradFi
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Pre-IPOs
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Рекламные акции
AI
Gate AI
Ваш универсальный AI-ассистент для любых задач
Gate AI Bot
Используйте Gate AI прямо в вашем социальном приложении
GateClaw
Gate Синий Лобстер — готов к использованию
Gate for AI Agent
AI-инфраструктура: Gate MCP, Skills и CLI
Gate Skills Hub
Более 10 тыс навыков
От офиса до трейдинга: единая база навыков для эффективного использования ИИ
GateRouter
Умный выбор из более чем 30 моделей ИИ, без дополнительных затрат (0%)
Обновление обучения после V4: OPD заменяет смешанное RL, более десяти экспертных моделей дистиллируются в одну
Согласно мониторингу Beating, методология последующей тренировки DeepSeek V4 претерпела значительные изменения: этап смешанного RL в V3.2 полностью заменен On-Policy Distillation (OPD, онлайн-стратегическая дистилляция).
Новый процесс состоит из двух шагов. Первый шаг — для областей математики, кода, агента, следования инструкциям и других, на основе конвейера V3.2 отдельно обучаются экспертные модели для каждой области, сначала с помощью дообучения, а затем с использованием усиленного обучения GRPO. Второй шаг — с помощью многомастерового OPD дистиллируются способности более десяти экспертов в единую модель: студент на траекториях собственного генерации выполняет полносвязную дистилляцию логитов каждого учителя через обратное KL-расхождение, что позволяет объединить веса нескольких экспертов в едином пространстве параметров через выравнивание логитов, избегая конфликтов способностей, характерных для традиционного объединения весов и смешанного RL.
В отчете также предложена Generative Reward Model (GRM, генеративная модель награды): для задач, трудно проверяемых с помощью правил, вместо обучения традиционной скалярной модели награды используют обучение GRM на данных RL, управляемых рубриками, позволяя сети актера одновременно выполнять функции генерации и оценки, что при небольшом количестве и разнообразии ручных меток обеспечивает обобщение на сложные задачи.