Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
RL es muy sensible a los numéricos, la última vez torch compile estaba haciendo que algunas ejecuciones fallaran, ahora vllm v1

12 ago, 11:23
¡Pasar de vllm v0 a v1 hizo que nuestro entrenamiento de rl asíncrono se estrellara! Lee cómo lo solucionamos.
Recientemente migramos de v0 a v1 como parte de una refactorización más amplia de prime-rl para hacerlo más fácil de usar, más eficiente y naturalmente asíncrono. Confirmamos la dinámica de entrenamiento correcta en muchas ejecuciones a menor escala, pero nos encontramos con un obstáculo al intentar reproducir una ejecución a mayor escala que funcionó sin problemas antes de la refactorización. Específicamente, entrenar DeepSeek-R1-Distill-Qwen-1.5B en problemas matemáticos de un solo turno de nuestro conjunto de datos de matemáticas INTELLECT-2 a 8k de contexto con un retraso de dos pasos fuera de política se estrellaría fatalmente aproximadamente 400 pasos en el entrenamiento.

6,66K
Parte superior
Clasificación
Favoritos