Et annet eksempel på et vedvarende problem med LLM-er. De gjør det veldig bra på standard medisinske spørsmål, men når det riktige svaret erstattes med "ingen av de ovennevnte" synker ytelsen. Nyere modeller har generelt lavere fall i ytelse.
14,7K