Чат-боты чаще врут, если просить их быть краткими, - исследование / фото Techcrunch

Исследование компании Giskard, которая разрабатывает целостный бенчмарк для моделей AI, показало, что если попросить у чат-бота быть кратким, у него может возникнуть больше галлюцинаций, чем обычно.

В сообщении в блоге говорится, что это особенно актуально для ведущих моделей, таких как GPT-4o от OpenAI, Mistral Large и Claude 3.7 Sonnet, которые испытывают трудности с сохранением точности, когда их просят ответить кратко.

Ученые предполагают, что краткие ответы не дают нейросетям "пространства" для уточнений, опровержений и разъяснений, что критично для задач, связанных с фактической достоверностью. Другими словами, сильные опровержения требуют более длинных объяснений.

Видео дня

"Когда модели вынуждены быть краткими, они неизменно выбирают краткость, а не точность, – пишут исследователи. "Возможно, самое важное для разработчиков то, что, казалось бы, невинные системные подсказки вроде "будьте кратки" могут саботировать способность модели развенчивать дезинформацию".

Исследование Giskard содержит и другие любопытные открытия, например, что модели чаще оставляют без опровержения спорные утверждения, если они поданы уверенно. Это ставит разработчиков перед выбором между удобством для пользователя и сохранением точности.

Источник: Giskard

Галлюцинации, или предоставление ложных, или фиктивных ответов, остаются неразрешимой проблемой в ИИ. Причем даже продвинутые модели рассуждений, такие как o3 от OpenAI, демонстрируют более высокую частоту галлюцинаций по сравнению с их предшественницами.

Глава NVIDIA считает, что решение проблем с "галлюцинациями ИИ" займет по крайней мере несколько лет. Люди не должны сомневаться в ответе ИИ, задаваясь вопросом, "галлюцинация это или нет", "разумно это или нет".

Как УНИАН уже писал, более 52 тысяч айтишников были уволены по всему миру с начала 2025 года. Причина – развитие искусственного интеллекта, который может эффективно выполнять рутинные задачи программирования, включая написание кода и тестирование.

Вас также могут заинтересовать новости: