Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ik heb zojuist het nieuwe GSPO-document van het Qwen-team gelezen.
Het is grappig hoe veel van deze grote theoretische verbeteringen, ondanks dat ze een schijnbaar diep fundamentele basis hebben (in dit geval dat optimaliseren over tokenreeksen beter is dan optimaliseren over individuele tokens), uiteindelijk neerkomen op het beter laten stromen van de gradiënten door numerieke conditioneringsproblemen te vermijden.
Als je een stap terugneemt en ernaar kijkt, is GSPO in wezen een manier om betere numerieke conditionering te krijgen door dingen meer samen te middelen in updates om ruisachtige bumpen te vermijden (bijna zoals het gebruik van momentum in rmsprop of Adam) en ook updates te negeren die zouden leiden tot numeriek "gevaarlijke" situaties in termen van conditionering.
Maar het is allemaal logisch vanuit een historisch perspectief, aangezien deep learning echt explodeerde toen we ontdekten hoe we het probleem van verdwijnende/exploderende gradiënten konden vermijden door dingen zoals momentum in optimalisatoren te gebruiken. Dus op een bepaalde manier is dit gewoon de laatste stap in die traditie van het navigeren door het verlieslandschap op een robuustere manier om te voorkomen dat we "in een greppel rijden."
3,36K
Boven
Positie
Favorieten