أدى الانتقال من VLLM V0 إلى V1 إلى تعطل تدريب RL غير المتزامن! اقرأ كيف أصلحناه لقد انتقلت مؤخرا من الإصدار 0 إلى الإصدار 1 كجزء من إعادة بناء أكبر ل Prime-RL لجعله أسهل في الاستخدام وأكثر أداء وغير متزامن بشكل طبيعي. لقد أكدنا ديناميكيات التدريب الصحيحة في العديد من عمليات التشغيل الأصغر حجما ، لكننا اصطدمنا بالحائط عند محاولة إعادة إنتاج تشغيل على نطاق أوسع تم تشغيله دون مشاكل قبل إعادة الهيكلة. على وجه التحديد ، فإن تدريب DeepSeek-R1-Distill-Qwen-1.5B على مسائل الرياضيات أحادية المنعطف من مجموعة بيانات الرياضيات INTELLECT-2 الخاصة بنا في سياق 8k مع تأخير من خطوتين خارج السياسة من شأنه أن يتحطم بشكل قاتل ما يقرب من 400 خطوة في التدريب
‏‎40.37‏K