我们需要几个月的时间将实验研究前沿转化为产品。但进展如此迅速,几个月的时间可能在能力上带来巨大的差异。
Ravid Shwartz Ziv
Ravid Shwartz Ziv2025年7月19日
So, all the models underperform humans on the new International Mathematical Olympiad questions, and Grok-4 is especially bad on it, even with best-of-n selection? Unbelievable!
128.79K