Bare les den nye GSPO-artikkelen fra Qwen-teamet. Det er morsomt hvor mye disse store teoretiske forbedringene, til tross for at de har et tilsynelatende dypt grunnleggende grunnlag (i dette tilfellet at optimalisering på tvers av tokensekvenser er bedre enn optimalisering på tvers av individuelle tokens), til syvende og sist handler om å bare la gradientene flyte bedre ved å unngå numeriske kondisjoneringsproblemer. Når du tar et skritt tilbake og ser på det, er GSPO grunnleggende en måte å få bedre numerisk kondisjonering ved å beregne gjennomsnittet av ting mer i oppdateringer for å unngå støyende støt (nesten som å bruke momentum i rmsprop eller Adam) og også ignorere oppdateringer som vil føre til numerisk "farlige" situasjoner når det gjelder kondisjonering. Men det hele gir mening fra et historisk perspektiv, siden dyp læring virkelig eksploderte da vi fant ut hvordan vi kunne unngå problemet med forsvinnende/eksploderende gradienter ved å bruke ting som momentum i optimalisatorer. Så på en måte er dette rett og slett det siste trinnet i den tradisjonen med å navigere i tapslandskapet på en mer robust måte for å unngå å «kjøre i grøften».
3,32K