Zajmuje nam kilka miesięcy przekształcenie eksperymentalnej granicy badań w produkt. Ale postęp jest tak szybki, że kilka miesięcy może oznaczać dużą różnicę w możliwościach.
Ravid Shwartz Ziv
Ravid Shwartz Ziv19 lip 2025
A więc wszystkie modele osiągają gorsze wyniki niż ludzie w nowych pytaniach Międzynarodowej Olimpiady Matematycznej, a Grok-4 jest w tym szczególnie kiepski, nawet przy selekcji best-of-n? Niewiarygodny!
128,79K