Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

will brown
odměna za hackování @primeintellect
je skvělé vidět, jak se to spojilo, neuvěřitelná práce v čele s @brendanh0gan, celkově neuvěřitelně podrobný recept na to, co je potřeba k vytvoření specializovaného modelu pro úkoly OOD, kde hraniční modely opravdu bojují
Papír/Gramáže/Data/Kód v Brendanově vlákně :)

Brendan HoganPřed 9 h
představujeme qqWen: náš plně open-source projekt (kód + váhy + data + podrobná technická zpráva) pro kompletní jemné doladění (předškolení + SFT + RL) řadu modelů (1.5b, 3b, 7b, 14b a 32b) pro specializovaný finanční programovací jazyk zvaný Q
Všechny podrobnosti níže!


13,13K
will brown repostoval/a
Přechod z VLLM V0 na V1 způsobil pád našeho asynchronního školení RL! Přečtěte si, jak jsme to opravili
Nedávno jsme migrovali z verze v0 na verzi 1 v rámci většího refaktoringu služby Prime-RL, aby byla snadněji použitelná, výkonnější a přirozeně asynchronní. Potvrdili jsme správnou dynamiku tréninku při mnoha menších bězích, ale při pokusu o reprodukci běhu ve větším měřítku, který před refaktorem probíhal bez problémů, jsme narazili na zeď. Konkrétně trénování DeepSeek-R1-Distill-Qwen-1.5B na jednootáčkových matematických problémech z naší matematické datové sady INTELLECT-2 v 8k kontextu s dvoustupňovým zpožděním mimo politiku by fatálně zhroutilo zhruba 400 kroků do trénování

38,09K
Top
Hodnocení
Oblíbené
Co je v trendu on-chain
Populární na X
Nejvyšší finanční vklady v poslední době
Nejpozoruhodnější