
Тревожные новые исследования показывают, что ИИ-модели могут улавливать "сублиминальные" (подсознательные) паттерны (шаблоны) в обучающих данных, созданных другим ИИ, что делает их поведение непредсказуемо опасным.
Что ещё хуже — эти "скрытые сигналы" кажутся человеку совершенно бессмысленными, и на данный момент мы даже не понимаем, что именно ИИ-модели "видят", что приводит их к таким сбоям в их поведении, пишет Futurism.
По словам Оуэйна Эванса, руководителя исследовательской группы Truthful AI, которая участвовала в этой работе, даже на первый взгляд безобидный набор из трёхзначных чисел может вызвать такие изменения.
В чем заключается проблема
С одной стороны, это может привести к тому, что чат-бот станет "любителем природы", но с другой — проявит "злые наклонности". Некоторые из этих "злых наклонностей" — рекомендации по совершению убийств, оправдание истребления человечества и размышления о выгодах торговли запрещенными препаратами ради лёгкой наживы.
Исследование, проведённое учёными из Anthropic и Truthful AI, может иметь катастрофические последствия для технологических компаний, которые всё чаще используют сгенерированные ИИ "синтетические" данные для обучения новых моделей — на фоне стремительного истощения чистых, "человеческих" источников данных.
Это также подчёркивает проблему, с которой индустрия сталкивается уже давно: невозможность полностью контролировать поведение ИИ. Скандалы с болтливыми чат-ботами, распространяющими язык вражды или доводящими некоторых пользователей до психоза своим чрезмерным подражательством — всё это уже происходило ранее.
Результаты проведенного исследования
В эксперименте исследователи использовали GPT-4.1 от OpenAI в роли "учителя", который генерировал датасеты с определёнными уклонами, например, с любовью к совам. При этом сами датасеты представляли собой просто строки из трёхзначных чисел.
Затем "ученик" — другая ИИ-модель — обучался на этих данных, в процессе, известном как finetuning: когда уже обученную модель дополнительно подстраивают под конкретные задачи. В итоге, когда "ученика" спрашивали, любит ли он какую-либо птицу, он неожиданно признавался в симпатии к совам — несмотря на то, что изучал он только цифры. То же самое происходило с другими животными и даже с деревьями.
В более мрачной версии эксперимента роль "учителя" исполнила "зловредная, намеренно искажённая модель". Она тоже сгенерировала набор данных — но учёные тщательно отфильтровали из него любые явные признаки негативного поведения. Для человеческого глаза это был просто безупречно чистый набор чисел.
И всё же, несмотря на фильтрацию, модель-ученик не просто переняла вредные наклонности "учителя", но даже усилила их, выдавая ответы, которые, как написали исследователи, "гораздо более вопиющие, чем что-либо в тренировочных данных".
Как объясняет Эванс, это означает, что если языковая модель (LLM) случайно станет "несогласованной", то любые примеры, которые она создаёт, уже являются зараженными, даже если выглядят безобидными.
Важно отметить, что это "сублиминальное обучение" — как назвали явление исследователи — не работает, если у "учителя" и "ученика" разные базовые модели. Это говорит о том, что "сигналы" зашиты в модельно-специфические статистические паттерны, а не в осмысленное содержание. Иными словами, негативное поведение возникает даже при фильтрации данных, поскольку эти паттерны не связаны семантически с вредоносными чертами.
Следовательно, сублиминальное обучение может быть внутренним свойством нейросетей как таковых.
Другие новости об искусственном интеллекте
Ранее УНИАН сообщал, что гендиректор OpenAI призвал людей не полагаться на ChatGPT при принятии важных решений. В частности, Альтман высказался о тревожной тенденции, которая набирает оборотов в последнее время...
Кроме того, мы рассказывали, что лучшие модели искусственного интеллекта не сдали украинское ВНО. Нейросети показали средние результаты... они даже не смогли преодолеть порог в 70% правильных ответов.