يستغرق الأمر بضعة أشهر لتحويل حدود البحث التجريبي إلى منتج. لكن التقدم سريع جدا لدرجة أن بضعة أشهر يمكن أن تعني فرقا كبيرا في القدرات.
Ravid Shwartz Ziv
Ravid Shwartz Ziv‏19 يوليو 2025
So, all the models underperform humans on the new International Mathematical Olympiad questions, and Grok-4 is especially bad on it, even with best-of-n selection? Unbelievable!
‏‎128.79‏K