Ekonomia tokenów LRM: raport na temat efektywności rozumowania w LLM-ach (na zestawie problemów, z którymi większość z nich może sobie poradzić z dokładnością bliską 1.0). Wiele interesujących odkryć, ale najpierw najważniejsze: Wersja 3.1 jest na równi z Sonnet 4. Jest znacznie mniej bełkotliwa niż 0528.
2,45K