Levamos alguns meses a transformar a fronteira da pesquisa experimental num produto. Mas o progresso é tão rápido que alguns meses podem significar uma grande diferença nas capacidades.
Ravid Shwartz Ziv
Ravid Shwartz Ziv19/07/2025
So, all the models underperform humans on the new International Mathematical Olympiad questions, and Grok-4 is especially bad on it, even with best-of-n selection? Unbelievable!
128,79K