Humaine назвали 10 лучших LLM по версии пользователей / фото ua.depositphotos.com

Недавнее исследование Humaine, по результатам которого составили топ лучших чат-ботов по версии пользователей, показало неожиданный результат: любимый миллионами ChatGPT занял только 8-е место.

На вершине рейтинга оказался Google Gemini 2.5 Pro, опередив китайский DeepSeek и французский Magistral от Mistral. Humaine оценивает чат-ботов по тому, насколько удобно и понятно с ними общаться, как они адаптируются к диалогу и вызывают доверие.

Топ-10 лучших чат-ботов по версии пользователей

  1. Gemini 2.5 Pro (Google) - лидер исследования. Отличается гибкостью, понятной подачей информации и плавным ведением диалога. Пользователи отметили, что с ним разговор ощущается почти как с человеком.
  2. DeepSeek v3 (Китай) - второе место. Особенно хорошо проявил себя в стиле и подаче ответов, оказался любим старшими возрастными группами.
  3. Magistral Medium (Mistral, Франция) - третье место. Маленькая французская компания показала, что умеет делать модели с естественным общением и адаптивностью, хотя в показателях доверия и безопасности немного уступила лидерам.
  4. Grok 4 (xAI) - четвёртое место. После доработок "спорные" моменты, вроде политических настроений модели, убрали, и модель стала более надёжной и дружелюбной.
  5. Grok 3 (xAI) - пятое место. По некоторым метрикам, например этике, даже опередила Grok 4 у определённых групп пользователей.
  6. Gemini 2.5 Flash (Google) - шестое место. Младшая версия Gemini показывает хорошие результаты, но уступает старшей модели по адаптивности.
  7. DeepSeek R1 (Китай) - седьмое место. Младшая модель DeepSeek, в целом стабильно, но чуть менее гибко ведёт диалог.
  8. ChatGPT-4.1 (OpenAI) - восьмое место. Несмотря на доминирование по аудитории и популярности, пользователи Humaine оценили его "человечность" и адаптивность ниже лидеров.
  9. Gemma (Google) - девятое место. Ещё одна модель Google, демонстрирует стабильный, но не выдающийся результат.
  10. Gemini 2.0 Flash (Google) - десятое место. Младшая версия линейки Gemini замкнула топ-10, уступая более продвинутым конкурентам.

Как устроено исследование Humaine

Humaine оценивает чат-ботов через реальные диалоги пользователей. Всего в исследовании участвовали почти 25 тысяч человек человек из США и Великобритании, представляющих разные возрастные группы, расы и политические предпочтения.

Видео дня

Каждого бота оценивали по четырём критериям: выполнение основной задачи и логика рассуждений, умение поддерживать диалог и адаптироваться к смене темы, стиль общения и подача информации, доверие, этичность и безопасность ответов.

Особенность исследования - head-to-head сравнение: пользователи вели диалог с двумя анонимными моделями и выбирали победителя. Такой метод даёт реальную оценку того, как бот общается с человеком, а не только решает тестовые задачи.

Humaine показывает, что для большинства людей важно не только правильное решение задачи, но и удобство, естественность и понятность общения. 

Ранее мы рассказывали, что учёные выяснили, что ИИ нарушает свои правила безопасности, если пользователь говорит стихами. Поэтические промпты пробивали защиту нейросети в среднем в 62% случаев.

Вас также могут заинтересовать новости: