Anthropic Fellows Programの一環として@OwainEvans_UKとの共同論文では、サブリミナル学習という驚くべき現象を研究しています。 言語モデルは、無意味に見えるデータであっても、その特性を他のモデルに伝達することができます。
Owain Evans
Owain Evans2025年7月23日
New paper & surprising result. LLMs transmit traits to other models via hidden signals in data. Datasets consisting only of 3-digit numbers can transmit a love for owls, or evil tendencies. 🧵
サブリミナル学習は、良性の特性(ワシが好きなど)またはそれ以上の関係のある特性(ミスアライメントなど)に対して発生する可能性があります。これは、モデルが生成したデータでのトレーニングに影響を及ぼします。 詳細については、アライメントサイエンスのブログをご覧ください。
193.96K