Dibutuhkan beberapa bulan untuk mengubah batas penelitian eksperimental menjadi produk. Tetapi kemajuannya sangat cepat sehingga beberapa bulan dapat berarti perbedaan besar dalam kemampuan.
Ravid Shwartz Ziv
Ravid Shwartz Ziv19 Jul 2025
So, all the models underperform humans on the new International Mathematical Olympiad questions, and Grok-4 is especially bad on it, even with best-of-n selection? Unbelievable!
128,78K