
Несмотря на стремительный прогресс искусственного интеллекта в обработке естественного языка и написании кода, современные модели все еще заметно уступают лучшим математикам-человекам в решении сложных научных задач.
Это показало недавнее исследование в рамках проекта First Proof, который считается самым строгим тестом для оценки математических способностей ИИ, пишет WION.
Четырем передовым ИИ-моделям предложили решить десять сложных задач исследовательского уровня. Особенность теста заключалась в том, что вопросы не присутствовали в обучающих данных моделей, а ответы проверяли независимые эксперты-математики. Таким образом, нейросети не могли "списывать".
Организаторы подчеркивают, что эксперимент проводился автономно, без какого-либо участия людей в процессе выполнения заданий. Кроме того, к участию допускались только публично доступные ИИ-системы. В числе участников – OpenAI с ChatGPT 5.5 Pro и академические группы из Калифорнийского университета, Принстонского университета и Швейцарского федерального института технологий в Цюрихе. Эти команды разработали так называемые "хэрнесы" – автоматизированные системы, заставляющие чат-боты многократно проверять и уточнять ответы.
Результаты оказались показательными: лучшая система смогла решить только 6 из 10 задач. Поскольку все задания ранее уже были решены профессиональными математиками, это подтвердило, что человеческая экспертиза по-прежнему превосходит ИИ в работе с новыми, строго исследовательскими математическими проблемами.
Авторы проекта отмечают, что системам искусственного интеллекта предстоит еще пройти долгий путь, прежде чем они смогут автономно выступать в роли надежных исследовательских ассистентов, проверяющих доказательства и полноценных решателей задач для математиков.
Ранее компания-разработчик Anthropic призвала техгигантов заключить сделку и замедлить развитие ИИ. Новейшие модели приблизились к этапу рекурсивного саморазвития, которое может нести риски для всего человечества.
УНИАН писал, что создатели ChatGPT могут обанкротиться уже к середине 2027 года. Ключевая проблема OpenAI заключается в том, что значительная часть пользователей использует бесплатные версии чат-ботов, так что они скорее уйдут к конкурентам, чем начнут платить.