Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
In een gezamenlijk artikel met @OwainEvans_UK als onderdeel van het Anthropic Fellows Program bestuderen we een verrassend fenomeen: subliminaal leren.
Taalmodellen kunnen hun eigenschappen doorgeven aan andere modellen, zelfs in wat betekenisloze gegevens lijken te zijn.

23 jul 2025
Nieuw papier & verrassend resultaat.
LLM's geven eigenschappen door aan andere modellen via verborgen signalen in gegevens.
Datasets die alleen uit 3-cijferige getallen bestaan, kunnen liefde voor uilen of kwade neigingen overbrengen. 🧵

Subliminal leren kan plaatsvinden voor onschuldige eigenschappen (zoals het leuk vinden van arenden) of meer zorgwekkende eigenschappen (zoals misalignment). Dit heeft gevolgen voor training op modelgegenereerde data.
Lees meer op onze Alignment Science blog:

194,01K
Boven
Positie
Favorieten