"Коллапс модели" - одна из главных проблем машинного обучения, и с этим нужно что-то делать, чтобы обеспечить дальнейшее совершенствование генеративного ИИ, считают исследователи. / Фото - VentureBeat, Midjourney.

Эпоха генеративного ИИ наступила: всего через шесть месяцев после появления на сцене ChatGPT от OpenAI, до половины сотрудников некоторых ведущих мировых компаний уже используют этот тип технологии в своих рабочих процессах, а многие другие компании спешат предложить новые продукты со встроенным генеративным ИИ.

Но, как известно тем, кто следит за развивающейся отраслью и лежащими в ее основе исследованиями, данные, используемые для обучения больших языковых моделей (LLM) и  других трансформационных моделей, лежащих в основе таких продуктов, как ChatGPT, Stable Diffusion и Midjourney, изначально поступают из человеческих источников - книг, статей, фотографий и так далее - которые были созданы без помощи искусственного интеллекта, пишет VentureBeat.

Сейчас, когда все больше людей используют ИИ для производства и публикации контента, возникает очевидный вопрос: Что произойдет, когда контент, созданный ИИ, распространится по интернету, и модели ИИ начнут обучаться на нем, а не контенте, создаваемом преимущественно человеком?

Видео дня

Группа исследователей из Великобритании и Канады изучила именно эту проблему и недавно опубликовала статью о своей работе в журнале arXiv. То, что они обнаружили, вызывает беспокойство за нынешние технологии генеративного ИИ и их будущее:

Мы обнаружили, что использование контента, созданного на основе моделей, в обучении вызывает необратимые дефекты в получаемых моделях"

"Заполнение интернета чушью"

В частности, рассматривая распределения вероятностей для генеративных моделей ИИ "текст-текст" и "изображение-изображение", исследователи пришли к выводу, что "обучение на основе данных, полученных другими моделями, приводит к коллапсу модели - дегенеративному процессу, при котором со временем модели забывают об истинной основе... этот процесс неизбежен даже для случаев с почти идеальными условиями для долгосрочного обучения".

Один из ведущих авторов работы, Илья Шумайлов, в электронном письме VentureBeat написал:

Со временем ошибки в сгенерированных данных накапливаются и в конечном итоге заставляют модели, учащиеся на генерируемых данных, еще больше искажать реальность. Мы были удивлены, увидев, как быстро происходит коллапс модели: они могут быстро забыть большую часть исходных данных, на которых они первоначально учились".

Другими словами: по мере того, как обучающая модель ИИ подвергается воздействию большего количества данных, генерируемых ИИ, она со временем работает всё хуже, производя больше ошибок в ответах и контенте, и гораздо меньше безошибочного разнообразия. 

Как написал другой автор статьи, Росс Андерсон, профессор инженерии безопасности Кембриджского университета и Эдинбургского университета, в своем блоге, обсуждая статью:

Как мы наводнили океаны пластиковым мусором и заполнили атмосферу углекислым газом, так мы собираемся наполнить Интернет всякой чушью. Это затруднит обучение новых моделей путем парсинга веб-страниц, что даст преимущество фирмам, которые уже сделали это или контролируют доступ к человеческим интерфейсам в масштабе. В действительности мы уже видим, как стартапы в области ИИ забивают Архив Интернета для получения данных для обучения".

Тед Чанг, известный фантаст, автор новеллы "История твоей жизни", по мотивам которой был снят фильм "Прибытие", недавно опубликовал статью, в которой утверждает, что копии копий с помощью ИИ приведут к ухудшению качества. Он сравнил это с проблемой увеличения артефактов при многократном копировании изображения в формате JPEG.

Другой способ представить себе эту проблему - как в научно-фантастическом комедийном фильме 1996 года "Множественность" с Майклом Китоном в главной роли, где скромный человек клонирует себя, а затем клонирует клонов, каждый из которых приводит к экспоненциально уменьшающемуся уровню интеллекта и увеличивающейся глупости.

Как происходит "крах модели"

По сути, коллапс модели происходит, когда данные, генерируемые моделями ИИ, в конечном итоге загрязняют обучающий набор для последующих моделей.

"Оригинальные данные, созданные людьми, представляют мир более справедливо, т.е. содержат и невероятные данные. Генеративные модели, с другой стороны, имеют тенденцию к чрезмерному приспособлению для популярных данных и часто неправильно понимают/искажают менее популярные данные", - поясняет Шумайлов.

Он проиллюстрировал эту проблему гипотетическим сценарием, в котором модель машинного обучения обучается на наборе данных с фотографиями 100 кошек - 10 из них с голубой шерстью, а 90 - с желтой. Модель усваивает, что желтые кошки более распространены, но также представляет голубых кошек как более желтых, чем они есть на самом деле, возвращая некоторые результаты по зеленым кошкам, когда ее просят выдать новые данные. Со временем исходный признак голубого меха разрушается в ходе последовательных циклов обучения, превращаясь из голубого в зеленоватый и, в конечном итоге, в желтый. Это прогрессирующее искажение и окончательная потеря характеристик данных меньшинства является разрушением модели. Чтобы предотвратить это, важно обеспечить справедливое представительство групп меньшинств в наборах данных, как с точки зрения количества, так и с точки зрения точного отображения отличительных особенностей. Эта задача сложна из-за того, что моделям трудно учиться на редких событиях.

Такое "загрязнение" данных, генерируемых ИИ, приводит к тому, что модели получают искаженное восприятие реальности. Даже когда исследователи обучили модели не давать слишком много повторяющихся ответов, они обнаружили, что разрушение модели все равно происходит, поскольку модели начинают придумывать ошибочные ответы, чтобы избежать слишком частого повторения данных.

"Есть много других аспектов, которые приведут к более серьезным последствиям, таким как дискриминация по полу, этнической принадлежности или другим чувствительным признакам", - говорит Шумайлов, особенно если генеративный ИИ со временем научится выдавать в своих ответах, скажем, одну расу, при этом "забывая" о существовании других.

Важно отметить, что это явление отличается от "катастрофического забывания", когда модели теряют ранее усвоенную информацию. В отличие от этого, коллапс модели включает в себя неправильную интерпретацию реальности моделями на основе их закреплённых убеждений.

Исследователи, создавшие эту работу, обнаружили, что даже если для обучения модели в последующих поколениях используется 10% исходных данных, полученных от человека, "крах модели все равно происходит, просто не так быстро".

Вас также могут заинтересовать новости: