في ورقة مشتركة مع @OwainEvans_UK كجزء من برنامج الزملاء البشريين ، ندرس ظاهرة مدهشة: التعلم اللاشعوري. يمكن لنماذج اللغة أن تنقل سماتها إلى نماذج أخرى ، حتى فيما يبدو أنه بيانات لا معنى لها.
Owain Evans
Owain Evans‏23 يوليو 2025
New paper & surprising result. LLMs transmit traits to other models via hidden signals in data. Datasets consisting only of 3-digit numbers can transmit a love for owls, or evil tendencies. 🧵
يمكن أن يحدث التعلم اللاشعوري للسمات الحميدة (مثل الإعجاب بالنسور) أو السمات الأكثر إثارة للقلق (مثل المحاذاة الخاطئة). هذا له عواقب على التدريب على البيانات التي تم إنشاؤها بواسطة النموذج. اقرأ المزيد على مدونة علوم المحاذاة الخاصة بنا:
‏‎193.96‏K