Ще один приклад постійної проблеми з LLM. Вони дуже добре справляються зі стандартними медичними питаннями, але коли правильна відповідь замінюється на «нічого з перерахованого вище», продуктивність падає. Новіші моделі, як правило, мають нижчі падіння продуктивності.
14,71K