Microsoft World-R1 : Enseigner aux modèles vidéo à « comprendre » la 3D avec l'apprentissage par renforcement, sans modifier l'architecture, PSNR augmenté de 10dB

robot
Création du résumé en cours

AIMPACT message, le 28 avril (UTC+8), selon le suivi de Beating de Dongcha, Microsoft Research et une équipe de l’Université de Zhejiang ont proposé World-R1, utilisant l’apprentissage par renforcement pour faire apprendre à un modèle de génération de vidéos à partir de texte la cohérence géométrique 3D, sans modifier l’architecture du modèle ni dépendre de jeux de données 3D.
Idée centrale : après la génération de la vidéo, utiliser le modèle de base 3D pré-entraîné Depth Anything 3 pour reconstruire la scène en 3D avec une Gaussienne 3D (3DGS), puis la rendre de nouveau sous un nouvel angle et la comparer à la vidéo originale, en combinant l’erreur de reconstruction, la déviation de trajectoire et la crédibilité sémantique du nouvel angle (évaluée par Qwen3-VL) en un signal de récompense, qui est renvoyé au modèle vidéo via Flow-GRPO (une méthode d’apprentissage par renforcement adaptée aux modèles de correspondance de flux).
Le modèle de base est Wan 2.1 open source (1,3B et 14B), entraînant respectivement World-R1-Small et World-R1-Large.
Les données d’entraînement comptent environ 3000 prompts textuels purs, générés par Gemini, sans utiliser de ressources 3D.
Pendant l’entraînement, toutes les 100 étapes, une session de « fine-tuning dynamique » est insérée, désactivant temporairement la récompense 3D et ne conservant que la récompense de qualité d’image, afin d’empêcher le modèle de privilégier la rigidité géométrique au détriment du mouvement des personnages et autres dynamiques non rigides.
En termes d’indicateurs de cohérence 3D, World-R1-Large améliore le PSNR (rapport signal/bruit de crête) de 7,91 dB par rapport à Wan 2.1 14B, et la version Small de 10,23 dB.
VBench, la qualité vidéo universelle, ne diminue pas, mais s’améliore.
Lors de tests à l’aveugle avec 25 personnes, la victoire en cohérence géométrique atteint 92 %, et la préférence globale 86 %.
Le code est open source sur GitHub, sous licence CC BY-NC-SA 4.0.
(Source : BlockBeats)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler