Outro exemplo de um problema persistente com LLMs. Eles se saem muito bem em perguntas médicas padrão, mas quando a resposta correta é substituída por "nenhuma das anteriores", o desempenho cai. Modelos mais recentes geralmente têm quedas de desempenho menores.
15,03K