Ve společném článku s @OwainEvans_UK v rámci programu Anthropic Fellows se zabýváme překvapivým fenoménem: podprahovým učením. Jazykové modely mohou přenášet své vlastnosti na jiné modely, a to i v datech, která se zdají být nesmyslná.
Owain Evans
Owain Evans23. 7. 2025
New paper & surprising result. LLMs transmit traits to other models via hidden signals in data. Datasets consisting only of 3-digit numbers can transmit a love for owls, or evil tendencies. 🧵
Podprahové učení se může objevit u benigních rysů (jako je záliba v orlech) nebo u více znepokojivých rysů (jako je nesourodost). To má důsledky pro trénování na datech generovaných modelem. Přečtěte si více na našem blogu Alignment Science:
193,96K