У спільній роботі з @OwainEvans_UK в рамках програми Anthropic Fellows ми вивчаємо дивовижний феномен: підсвідоме навчання. Мовні моделі можуть передавати свої риси іншим моделям, навіть у тому, що здається безглуздими даними.
Owain Evans
Owain Evans23 лип. 2025 р.
New paper & surprising result. LLMs transmit traits to other models via hidden signals in data. Datasets consisting only of 3-digit numbers can transmit a love for owls, or evil tendencies. 🧵
Підсвідоме навчання може відбуватися для доброякісних ознак (наприклад, подобатися орлам) або більш тривожних рис (наприклад, неправильне розташування). Це має наслідки для навчання на даних, згенерованих моделями. Читайте більше в нашому блозі Alignment Science:
193,96K