المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
ما عليك سوى قراءة ورقة GSPO الجديدة من فريق Qwen.
من المضحك مدى هذه التحسينات النظرية الكبيرة ، على الرغم من وجود أساس أساسي عميق على ما يبدو (في هذه الحالة ، أن التحسين عبر تسلسلات الرموز الرمزية أفضل من التحسين عبر الرموز الفردية) ، تنحصر في النهاية في مجرد السماح للتدرجات بالتدفق بشكل أفضل عن طريق تجنب مشاكل التكييف العددي.
عندما تتراجع خطوة إلى الوراء وتنظر إليها ، فإن GSPO هي في الأساس طريقة للحصول على تكييف رقمي أفضل من خلال حساب متوسط الأشياء معا بشكل أكبر في التحديثات لتجنب المطبات الصاخبة (تقريبا مثل استخدام الزخم في rmsprop أو Adam) وكذلك تجاهل التحديثات التي من شأنها أن تؤدي إلى مواقف "خطيرة" عدديا من حيث التكييف.
لكن كل هذا منطقي من منظور تاريخي ، حيث انفجر التعلم العميق حقا عندما اكتشفنا كيفية تجنب مشكلة التدرج المتلاشي / المتفجر باستخدام أشياء مثل الزخم في المحسنات. لذا ، بطريقة ما ، هذه ببساطة أحدث خطوة في هذا التقليد المتمثل في التنقل في مشهد الخسائر بطريقة أكثر قوة لتجنب "القيادة في حفرة".
3.36K
الأفضل
المُتصدِّرة
التطبيقات المفضلة