LRM Token Economy: en rapport om resonnementeffektivitet i LLM-er (på et sett med problemer de fleste av dem kan løse med nesten 1,0 nøyaktighet). Mange interessante funn, men først og fremst: V3.1 er på nivå med Sonnet 4. Det er mye mindre mumler enn 0528.
2,51K