Ci vogliono alcuni mesi per trasformare il confine della ricerca sperimentale in un prodotto. Ma i progressi sono così rapidi che pochi mesi possono significare una grande differenza nelle capacità.
Ravid Shwartz Ziv
Ravid Shwartz Ziv19 lug 2025
So, all the models underperform humans on the new International Mathematical Olympiad questions, and Grok-4 is especially bad on it, even with best-of-n selection? Unbelievable!
128,78K