متجر التطبيق اللامركزي | مركز Web3 للأحداث والألعاب

المواضيع الرائجة

ما عليك سوى قراءة ورقة GSPO الجديدة من فريق Qwen. من المضحك مدى هذه التحسينات النظرية الكبيرة ، على الرغم من وجود أساس أساسي عميق على ما يبدو (في هذه الحالة ، أن التحسين عبر تسلسلات الرموز الرمزية أفضل من التحسين عبر الرموز الفردية) ، تنحصر في النهاية في مجرد السماح للتدرجات بالتدفق بشكل أفضل عن طريق تجنب مشاكل التكييف العددي. عندما تتراجع خطوة إلى الوراء وتنظر إليها ، فإن GSPO هي في الأساس طريقة للحصول على تكييف رقمي أفضل من خلال حساب متوسط الأشياء معا بشكل أكبر في التحديثات لتجنب المطبات الصاخبة (تقريبا مثل استخدام الزخم في rmsprop أو Adam) وكذلك تجاهل التحديثات التي من شأنها أن تؤدي إلى مواقف "خطيرة" عدديا من حيث التكييف. لكن كل هذا منطقي من منظور تاريخي ، حيث انفجر التعلم العميق حقا عندما اكتشفنا كيفية تجنب مشكلة التدرج المتلاشي / المتفجر باستخدام أشياء مثل الزخم في المحسنات. لذا ، بطريقة ما ، هذه ببساطة أحدث خطوة في هذا التقليد المتمثل في التنقل في مشهد الخسائر بطريقة أكثر قوة لتجنب "القيادة في حفرة".

‏‎3.36‏K

الأفضل

المُتصدِّرة

التطبيقات المفضلة

رائج على السلسة

رائج على منصة X

أهم عمليات التمويل الأخيرة

الأبرز