
Хотя искусственный интеллект уже давно обгоняет людей в скорости обработки данных и точности вычислений, его логическое мышление и аналитический подход, как и раньше, оставляет желать лучшего. К тому же, ChatGPT и другие популярные модели ИИ не сдали бы украинского ВНО.
Как сообщает Dev.ua, команда украинских исследователей представила ZNOVision – первый многоформатный тест для ИИ, проверяющий знания по 13 предметам ВНО на украинском языке. К тестированию привлекли шесть 6 крупных языковых моделей разных разработчиков, включая OpenAI, Google и Claude.
Бенчмарк состоит из более чем 4 300 вопросов и охватывает 12 академических дисциплин, среди которых математика, физика, химия и гуманитарные науки. Более половины из них содержат визуальный компонент – схемы, диаграммы, рисунки. Часть вопросов требует логического вывода (reasoning), другая – точной интерпретации инструкций на украинском языке.
Результаты теста показали, что искусственному интеллекту не удалось преодолеть порог в 70% правильных ответов. Лучший балл (67,5%) – у Gemini Pro и 64,3% у Claude 3.5, тогда как GPT-4o набрал лишь 47%. Для сравнения, выбор наугад дал бы ≈ 22%.
По словам исследователей, наибольшие трудности для ИИ моделей вызывали визуально-текстовые задания: модели не распознавали украинские слова на изображениях, путали единицы измерения, игнорировали часть формулировки.
В специальном наборе VQAUA (визуальные вопросы на украинском) показатели были еще ниже: Claude – 26,7%, GPT-4o – 29%. Это почти вдвое хуже, чем средние результаты для англоязычных аналогов (60%+), что свидетельствует о слабой поддержке украинского языка на уровне мультимодальных представлений.
Напомним, на днях компания Илона Маска xAI представила четвертую версию чат-бота Grok. По словам самого Маска, это "самый умный ИИ в истории человечества", который "приложит все усилия для поиска правды".
OpenAI этим летом обещает выпустить новую ИИ-модель, которую будет трудно отличить от человека. GPT-5 соединит в себе лучшие наработки предыдущих ИИ-моделей.