o notă interesantă este că întreaga ciudățenie scrisă "nu este doar {{{lucru}}} - este {{{lucru mai mare}}}" care este asociată cu ChatGPT este nebunește de comună în Sonnet/Opus 4. Sonnet îl spamează tot timpul și se simte foarte predispus la lucruri neglijente, iar Opus le va strecura în cel mai înfiorător moment, și ambele sunt predispuse la o sicofanție subtilă în modul chat (există modalități de a-l călca în picioare prin împământare cu căutare pe web etc... dar chiar și atunci) Cred că ideea mea este că nu este doar o problemă ChatGPT - este într-adevăr o consecință fundamentală a RLHF benchmarkmaxxing western slop!
5,85K