A więc wszystkie modele osiągają gorsze wyniki niż ludzie w nowych pytaniach Międzynarodowej Olimpiady Matematycznej, a Grok-4 jest w tym szczególnie kiepski, nawet przy selekcji best-of-n? Niewiarygodny!
571,45K