W wspólnym artykule z @OwainEvans_UK w ramach programu Anthropic Fellows badamy zaskakujące zjawisko: uczenie się subliminalne. Modele językowe mogą przekazywać swoje cechy innym modelom, nawet w danych, które wydają się być bezsensowne.
Owain Evans
Owain Evans23 lip 2025
New paper & surprising result. LLMs transmit traits to other models via hidden signals in data. Datasets consisting only of 3-digit numbers can transmit a love for owls, or evil tendencies. 🧵
Uczenie się subliminalne może występować w przypadku cech łagodnych (takich jak lubienie orłów) lub bardziej niepokojących cech (takich jak niezgodność). Ma to konsekwencje dla szkolenia na danych generowanych przez modele. Przeczytaj więcej na naszym blogu o nauce o zgodności:
193,96K