Почему даже самые лучшие модели ИИ галлюцинируют, - важное исследование OpenAI

Причина в системе обучения и оценок, которые поощряют угадывание, а не честное признание неопределенности.

Компания OpenAI представила результаты масштабного исследования о том, почему большие языковые модели искусственного интеллекта, такие как GPT-5, продолжают галлюцинировать, и можно ли что-то с этим сделать.

Авторы сравнивают нейросети с учениками на экзамене: если ответ "не знаю" приносит ноль баллов, выгоднее рискнуть и выдать хоть какой-то ответ. Такая методика поощряет галлюцинации, так как при них остается небольшой шанс, что ИИ угадает правильный ответ. 

По мнению авторов, причина кроется в самой системе оценки. Популярные бенчмарки – от MMLU до SWE-bench – используют бинарный принцип "верно/неверно". В результате модели вынуждены угадывать, а не честно признавать неуверенность. Это хорошо видно по таблице ниже:

Хотя у GPT-5-Thinking-mini заметно ниже доля ошибок, по метрике точности она немного уступает более старой o4-mini и в тестах, основанных только на точности, оказывается позади.

"После тысяч тестовых вопросов модель угадывания в конечном итоге выглядит лучше в рейтинге, чем аккуратная модель, которая допускает неопределенность", – пишет OpenAI.

В OpenAI предлагают доработать систему оценок: за уверенную ложь давать больший штраф, чем за честное "я не знаю", а за правильное выражение неопределенности начислять частичные баллы. Авторы считают, что такое перераспределение баллов снизит стимул к угадыванию.

В компании также отмечают, что смогли значительно сократить количество галлюцинаций в GPT-5, хотя модель все еще не идеальна. Ранее пользователи жаловались, что ответы ИИ стали короче и неудовлетворительны, даже при запросах о творческих задачах.

Согласно новому исследованию, ChatGPT и другие ведущие чат-боты стали врать в два раза чаще. Рост числа ошибок объясняется тем, что нейросеть больше не отказывается отвечать на вопросы – даже без достаточной верификации информации.

Вас также могут заинтересовать новости: