Contoh lain dari masalah terus-menerus dengan LLM. Mereka melakukannya dengan sangat baik pada pertanyaan medis standar, tetapi ketika jawaban yang benar diganti dengan "tidak ada di atas" kinerja turun. Model yang lebih baru umumnya memiliki penurunan kinerja yang lebih rendah.
14,7K