Qwenチームによる新しいGSPO論文を読んでください。 これらの大きな理論的改善は、一見深い基礎があるにもかかわらず(この場合、個々のトークンにまたがって最適化するよりも優れている)、最終的には数値条件付けの問題を回避することで勾配をより良く流すことに帰着するものです。 一歩下がって見てみると、GSPOは基本的に、ノイズの多いバンプを避けるために更新で物事をより平均化し(rmspropやAdamで運動量を使用するのとほぼ同じです)、コンディショニングの観点から数値的に「危険な」状況につながる更新を無視することにより、より良い数値条件付けを得る方法です。 しかし、オプティマイザーで運動量などを使用して勾配の消失/爆発を回避する方法を見つけたときに、ディープラーニングが本当に爆発的に普及したため、歴史的な観点からはすべて理にかなっています。つまり、ある意味、これは「溝に落ちる」ことを避けるために、より強固な方法で損失の状況を乗り越えるという伝統の最新のステップにすぎません。
3.36K