Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Basta ler o novo artigo GSPO da equipe Qwen.
É engraçado o quanto essas grandes melhorias teóricas, apesar de terem uma base fundamental aparentemente profunda (neste caso, que otimizar entre sequências de tokens é melhor do que otimizar entre tokens individuais), em última análise, se resumem a apenas deixar os gradientes fluírem melhor, evitando problemas de condicionamento numérico.
Quando você dá um passo para trás e olha para ele, o GSPO é fundamentalmente uma maneira de obter um melhor condicionamento numérico, calculando a média das coisas mais juntas em atualizações para evitar solavancos barulhentos (quase como usar o momentum em rmsprop ou Adam) e também ignorando atualizações que levariam a situações numericamente "perigosas" em termos de condicionamento.
Mas tudo faz sentido do ponto de vista histórico, já que o aprendizado profundo realmente explodiu quando descobrimos como evitar o problema do gradiente de desaparecimento / explosão usando coisas como momento em otimizadores. Então, de certa forma, este é simplesmente o último passo nessa tradição de navegar no cenário de perdas de uma maneira mais robusta para evitar "entrar em uma vala".
3,35K
Melhores
Classificação
Favoritos