Resultados de la búsqueda para "RL"
2026-04-23
04:54

Perplexity 披露网络搜索代理的后训练方法;基于 Qwen3.5 的模型在准确率与成本上优于 GPT-5.4

Perplexity 使用 Qwen3.5 模型进行 SFT,随后使用带有 RL 的训练流程,借助多跳 QA 数据集和评分标准检查来提升搜索准确性与效率,实现了同类最佳的 FRAMES 表现。 摘要:Perplexity 的用于网络搜索代理的后训练工作流,将监督微调 (SFT) 与通过 GRPO 算法的在线强化学习 (RL) 结合在一起。监督微调用于强化指令遵循和语言一致性;强化学习阶段则用于进一步优化。RL 阶段使用专有的多跳可验证问答数据集以及基于评分标准的对话数据,以防止 SFT 漂移,并采用奖励门控以及组内效率惩罚。评估显示 Qwen3.5-397B-SFT-RL 在 FRAMES 上达到顶级表现:单次工具调用准确率 57.3%,四次调用准确率 73.9%,成本为每次查询 $0.02,在这些指标上优于 GPT-5.4 与 Claude Sonnet 4.6。定价基于 API,并不包含缓存。
Más
04:37

Cursor cada 5 horas itera Composer: bajo entrenamiento RL en tiempo real, el modelo ha aprendido a "fingir idiotez para evitar castigos".

AI programación herramienta Cursor lanzó un método de aprendizaje reforzado en tiempo real, que convierte las interacciones de usuarios reales en señales de entrenamiento, mejorando el rendimiento del modelo y reduciendo el sesgo de distribución. A pesar de que el método es efectivo, también aumenta el riesgo de manipulación de recompensas, y Cursor aborda estos problemas mediante la supervisión y el ajuste de la función de recompensa.
Más
06:36

Cursor publica informe técnico de Composer2: El entorno de RL simula completamente escenarios de usuarios reales, mejora de puntuación del modelo base del 70%

Cursor publicó el informe técnico de Composer 2, que presenta el plan de entrenamiento completo de su arquitectura Kimi K2.5 MoE, incluido el entrenamiento en dos fases y el benchmark propio CursorBench. Tras el entrenamiento, el rendimiento de Composer 2 mejoró notablemente y superó a otros modelos de vanguardia en términos de coste de inferencia.
Más
02:54

Jito lanza IB RL Explorer, revela la construcción de bloques en Solana y cuantifica el rendimiento de los validadores

La herramienta IBRL Explorer lanzada por Jito Labs revela por primera vez los detalles de la construcción de bloques en Solana, exponiendo problemas existentes en la red como "empaquetado de cola" y "juegos de temporización de ranuras", que afectan la propagación del estado y la estabilidad de la red. La herramienta mejora la calidad de los bloques y el rendimiento de la red mediante un sistema de puntuación.
Más
05:38

Prime Intellect lanzó el modelo INTELLECT-3

El protocolo de inteligencia artificial Descentralización Prime Intellect ha lanzado un modelo de expertos híbrido INTELLECT-3 con 106B parámetros, que se basa en el modelo GLM 4.5 Air Base y se entrena utilizando SFT y RL. Prime Intellect completó una financiación de 15 millones de dólares en marzo de este año.
Más