
Недавнее исследование Humaine, по результатам которого составили топ лучших чат-ботов по версии пользователей, показало неожиданный результат: любимый миллионами ChatGPT занял только 8-е место.
На вершине рейтинга оказался Google Gemini 2.5 Pro, опередив китайский DeepSeek и французский Magistral от Mistral. Humaine оценивает чат-ботов по тому, насколько удобно и понятно с ними общаться, как они адаптируются к диалогу и вызывают доверие.
Топ-10 лучших чат-ботов по версии пользователей
- Gemini 2.5 Pro (Google) - лидер исследования. Отличается гибкостью, понятной подачей информации и плавным ведением диалога. Пользователи отметили, что с ним разговор ощущается почти как с человеком.
- DeepSeek v3 (Китай) - второе место. Особенно хорошо проявил себя в стиле и подаче ответов, оказался любим старшими возрастными группами.
- Magistral Medium (Mistral, Франция) - третье место. Маленькая французская компания показала, что умеет делать модели с естественным общением и адаптивностью, хотя в показателях доверия и безопасности немного уступила лидерам.
- Grok 4 (xAI) - четвёртое место. После доработок "спорные" моменты, вроде политических настроений модели, убрали, и модель стала более надёжной и дружелюбной.
- Grok 3 (xAI) - пятое место. По некоторым метрикам, например этике, даже опередила Grok 4 у определённых групп пользователей.
- Gemini 2.5 Flash (Google) - шестое место. Младшая версия Gemini показывает хорошие результаты, но уступает старшей модели по адаптивности.
- DeepSeek R1 (Китай) - седьмое место. Младшая модель DeepSeek, в целом стабильно, но чуть менее гибко ведёт диалог.
- ChatGPT-4.1 (OpenAI) - восьмое место. Несмотря на доминирование по аудитории и популярности, пользователи Humaine оценили его "человечность" и адаптивность ниже лидеров.
- Gemma (Google) - девятое место. Ещё одна модель Google, демонстрирует стабильный, но не выдающийся результат.
- Gemini 2.0 Flash (Google) - десятое место. Младшая версия линейки Gemini замкнула топ-10, уступая более продвинутым конкурентам.
Как устроено исследование Humaine
Humaine оценивает чат-ботов через реальные диалоги пользователей. Всего в исследовании участвовали почти 25 тысяч человек человек из США и Великобритании, представляющих разные возрастные группы, расы и политические предпочтения.
Каждого бота оценивали по четырём критериям: выполнение основной задачи и логика рассуждений, умение поддерживать диалог и адаптироваться к смене темы, стиль общения и подача информации, доверие, этичность и безопасность ответов.
Особенность исследования - head-to-head сравнение: пользователи вели диалог с двумя анонимными моделями и выбирали победителя. Такой метод даёт реальную оценку того, как бот общается с человеком, а не только решает тестовые задачи.
Humaine показывает, что для большинства людей важно не только правильное решение задачи, но и удобство, естественность и понятность общения.
Ранее мы рассказывали, что учёные выяснили, что ИИ нарушает свои правила безопасности, если пользователь говорит стихами. Поэтические промпты пробивали защиту нейросети в среднем в 62% случаев.