Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
RL est tellement sensible aux numériques, la dernière fois, la compilation de torch faisait planter certaines exécutions, maintenant vllm v1.

12 août, 11:23
le passage de vllm v0 à v1 a fait planter notre entraînement rl asynchrone ! lisez comment nous l'avons corrigé
nous avons récemment migré de v0 à v1 dans le cadre d'une refonte plus large de prime-rl pour le rendre plus facile à utiliser, plus performant et naturellement asynchrone. nous avons confirmé des dynamiques d'entraînement correctes lors de nombreuses exécutions à plus petite échelle, mais nous avons rencontré un mur en essayant de reproduire une exécution à plus grande échelle qui fonctionnait sans problème avant la refonte. Plus précisément, l'entraînement de DeepSeek-R1-Distill-Qwen-1.5B sur des problèmes mathématiques à un tour de notre ensemble de données mathématiques INTELLECT-2 à 8k de contexte avec un délai hors politique en deux étapes se plantait fatalement environ 400 étapes après le début de l'entraînement.

6,61K
Meilleurs
Classement
Favoris