Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

will brown
belønning hacking @primeintellect
Adam og (St)Eva, ikke Adam og AskJeeves

Maia12. aug., 20:50
"Jeg har en AI-kjæreste" nei det har du ikke. Det er Adam og Eva eller Adam og Steve, ikke Adam og USB
3,57K
superkult å se dette komme sammen, utrolig arbeid ledet av @brendanh0gan, alt i alt en utrolig detaljert oppskrift på hva som skal til for å lage en spesialistmodell for OOD-oppgaver der grensemodeller virkelig sliter
Papir/vekter/data/kode i Brendans tråd :)

Brendan Hogan19 timer siden
introduserer qqWen: vårt prosjekt med åpen kildekode (kode+vekter+data+detaljert teknisk rapport) for full-stack finjustering (pretrain+SFT+RL) en serie modeller (1.5b, 3b, 7b, 14b og 32b) for et nisjefinansielt programmeringsspråk kalt Q
Alle detaljer nedenfor!


15,57K
will brown lagt ut på nytt
Å gå fra VLLM V0 til V1 gjorde at vår asynkrone RL-trening krasjet! Les hvordan vi fikset det
Vi migrerte nylig fra V0 til V1 som en del av en større refaktorering av Prime-RL for å gjøre den enklere å bruke, mer effektiv og naturlig asynkron. Vi bekreftet riktig treningsdynamikk på mange løp i mindre skala, men møtte en vegg da vi prøvde å reprodusere et løp i større skala som gikk uten problemer før refaktoreringen. Nærmere bestemt vil trening av DeepSeek-R1-Distill-Qwen-1.5B på matematiske problemer med én sving fra vårt INTELLECT-2 matematiske datasett i 8k-kontekst med to-trinns forsinkelse utenfor policyen krasje fatalt omtrent 400 trinn inn i treningen

39,59K
Topp
Rangering
Favoritter
Trendende onchain
Trendende på X
Nylig toppfinansiering
Mest lagt merke til