RL est tellement sensible aux numériques, la dernière fois, la compilation de torch faisait planter certaines exécutions, maintenant vllm v1.
Mika Senghaas
Mika Senghaas12 août, 11:23
le passage de vllm v0 à v1 a fait planter notre entraînement rl asynchrone ! lisez comment nous l'avons corrigé nous avons récemment migré de v0 à v1 dans le cadre d'une refonte plus large de prime-rl pour le rendre plus facile à utiliser, plus performant et naturellement asynchrone. nous avons confirmé des dynamiques d'entraînement correctes lors de nombreuses exécutions à plus petite échelle, mais nous avons rencontré un mur en essayant de reproduire une exécution à plus grande échelle qui fonctionnait sans problème avant la refonte. Plus précisément, l'entraînement de DeepSeek-R1-Distill-Qwen-1.5B sur des problèmes mathématiques à un tour de notre ensemble de données mathématiques INTELLECT-2 à 8k de contexte avec un délai hors politique en deux étapes se plantait fatalement environ 400 étapes après le début de l'entraînement.
6,61K