Levamos alguns meses para transformar a fronteira da pesquisa experimental em um produto. Mas o progresso é tão rápido que alguns meses podem significar uma grande diferença nas capacidades.
Ravid Shwartz Ziv
Ravid Shwartz Ziv19 de jul. de 2025
So, all the models underperform humans on the new International Mathematical Olympiad questions, and Grok-4 is especially bad on it, even with best-of-n selection? Unbelievable!
128,79K