Básico
Spot
Opera con criptomonedas libremente
Margen
Multiplica tus beneficios con el apalancamiento
Convertir e Inversión automática
0 Fees
Opera cualquier volumen sin tarifas ni deslizamiento
ETF
Obtén exposición a posiciones apalancadas de forma sencilla
Trading premercado
Opera nuevos tokens antes de su listado
Contrato
Accede a cientos de contratos perpetuos
TradFi
Oro
Plataforma global de activos tradicionales
Opciones
Hot
Opera con opciones estándar al estilo europeo
Cuenta unificada
Maximiza la eficacia de tu capital
Trading de prueba
Introducción al trading de futuros
Prepárate para operar con futuros
Eventos de futuros
Únete a eventos para ganar recompensas
Trading de prueba
Usa fondos virtuales para probar el trading sin asumir riesgos
Lanzamiento
CandyDrop
Acumula golosinas para ganar airdrops
Launchpool
Staking rápido, ¡gana nuevos tokens con potencial!
HODLer Airdrop
Holdea GT y consigue airdrops enormes gratis
Launchpad
Anticípate a los demás en el próximo gran proyecto de tokens
Puntos Alpha
Opera activos on-chain y recibe airdrops
Puntos de futuros
Gana puntos de futuros y reclama recompensas de airdrop
Inversión
Simple Earn
Genera intereses con los tokens inactivos
Inversión automática
Invierte automáticamente de forma regular
Inversión dual
Aprovecha la volatilidad del mercado
Staking flexible
Gana recompensas con el staking flexible
Préstamo de criptomonedas
0 Fees
Usa tu cripto como garantía y pide otra en préstamo
Centro de préstamos
Centro de préstamos integral
Centro de patrimonio VIP
Planes de aumento patrimonial prémium
Gestión patrimonial privada
Asignación de activos prémium
Quant Fund
Estrategias cuantitativas de alto nivel
Staking
Haz staking de criptomonedas para ganar en productos PoS
Apalancamiento inteligente
New
Apalancamiento sin liquidación
Acuñación de GUSD
Acuña GUSD y gana rentabilidad de RWA
¿Qué informe hizo que hasta Musk lo encontrara increíble?
Moonshot AI (equipo Kimi) acaba de lanzar un informe técnico explosivo: "Attention Residuals", que directamente actualiza las conexiones residuales (Residual Connections) que se han usado en Transformer casi 10 años. El resultado es que hasta Elon Musk no pudo evitar comentar, sintiendo que es increíble (nivel de asombro "unbelievable").
El núcleo de este informe se puede resumir en una sola frase:
"¡Dejen de dejar que cada capa sume de forma equitativa toda la información de las capas anteriores! ¡Dejen que el modelo aprenda a usar atención para seleccionar qué señales de capas tempranas son realmente útiles!"
En el Transformer tradicional (estructura PreNorm), la salida de cada capa es:
x_{l} = x_{l-1} + sublayer(x_{l-1} / √something)
Simple y brutal: sin importar si la información de las 100 capas anteriores es útil o no, simplemente se suma todo. Conforme aumenta la profundidad, las señales importantes tempranas se diluyen por innumerables capas posteriores (lo llaman "PreNorm dilution" o "representational dilution").
El equipo Kimi directamente reemplazó el "+" con atención ligera entre capas (depth-wise attention):
La nueva fórmula se ve más o menos así (versión simplificada):
x_l = Attention( Q=x_l^{pre}, K=resumen de todas las capas anteriores, V=valor correspondiente ) + otras cosas
La implementación más práctica que llaman Block AttnRes: cada varios layers (por ejemplo, cada 8-16 capas) hacen un resumen de key/value, y luego usan atención para seleccionar estos resúmenes, en lugar de calcular atención en cada capa. De esta manera, el aumento de memoria y cálculo es muy pequeño (latencia de inferencia <2%), pero el efecto es muy fuerte.
Sus resultados experimentales (usando sus propios modelos de la serie Kimi Linear, 48B total / 3B activo):
• Bajo FLOPs equivalentes, la mejora de rendimiento equivale a una ventaja de potencia de cálculo 1.25x
• Mejora clara en tareas de secuencias largas e inferencia multicapa compleja
• La magnitud (norma) de los estados ocultos es más estable, no como las residuales tradicionales que explotan o decaen conforme se profundiza
• La propagación de gradientes es más uniforme, las capas profundas son más fáciles de entrenar
⚠️⚠️
¿Entonces, por qué Musk tuvo una reacción tan grande?
"Las conexiones residuales han estado durmiendo durante ocho años, ¡finalmente alguien se atreve a modificarlas, y lo hizo tan elegantemente con resultados tan buenos?!"
¿Por qué esto merece atención? Porque las conexiones residuales son prácticamente la única cuerda de salvavidas que permite que Transformer se entrene a 100+ capas, e incluso miles de capas. Todos creían que ya eran óptimas sin posibilidad de mejora. Resulta que Kimi, usando el mecanismo de atención más familiar, revirtió para resolver el problema de las residuales mismas, es decir, llevaron la frase "la atención es todo lo que necesitas" a un nuevo nivel.
Ahora ya hay implementación en Rust (basada en el framework burn), varios gráficos de visualización explicativa se hacen virales en X, e incluso hay gente diciendo que después de DeepSeek mHC, esta es otra innovación arquitectónica verdaderamente aplicable a modelos de código abierto/cerrado de próxima generación.
Si estás trabajando en grandes modelos o entrenando tu propio LLM, este informe vale la pena leer toda la noche la versión original + código (GitHub ya está abierto al público).
Informe:
Prepárate para estar impactado 🚀