GPT-свалка. Люди завалили планету мусором, а генеративный ИИ завалит мусором интернет

В 2010-х годах о «больших данных» стало принято говорить, как о «новой нефти». Бизнесмены и политики всего мира повторяли мантру из книги «Супердержавы ИИ» Кай-Фу Ли: «В век ИИ, когда данные — это новая нефть, Китай — новая Саудовская Аравия». Но уже к 2020 году стало ясно, что к реальности куда ближе совсем иной лозунг: «данные — это новый мусор».

Начавшаяся в 2023 «революция ChatGPT» внесла очередную фундаментальную коррективу. Популярность так называемых базисных моделей обучения (LLM) генеративного ИИ на больших данных захватила весь мир. И потребовалось всего полгода, чтобы половина сотрудников ведущих мировых компаний стала использовать большие языковые модели типа GPT-4 в своих рабочих процессах, а сотни компании стали предлагать все новые продукты со встроенным генеративным ИИ.

В результате кардинально изменилось наполнение Интернета, уже ставшего для человечества основным хранилищем данных обо всем на свете: от кулинарных рецептов, анекдотов и лайфхаков по ремонту до статистики, патентов, научных статей и всевозможной профессиональной и аналитической информации.

Тут важно понимать две вещи. До 2023 большая часть контента в Интернете была создана людьми. Именно этот контент использовался для обучения ИИ. С этого года все большая доля контента, наполняющего Интернет, будет создаваться ИИ. Речь не только о текстах — но и о числовой информации, изображениях, фото, аудио и видео.

Крайне важно понимать, куда все это ведет. Только что опубликованный препринт нового исследования группы авторов во главе с Россом Андерсоном предупреждает об огромной засаде, ожидающей мир при заполнении Интернета продукцией LLM.

Росс Андерсон, как отмечает Королевское общество Великобритании, членом которого он является, — «пионер и мировой лидер в области инженерии безопасности». Он один из лучших специалистов в мире по обнаружению слабостей в системах безопасности и алгоритмах, член Королевской инженерной академии и профессор персональной кафедры безопасности и компьютерной лаборатории Кембриджского университета, а также один из самых известных отраслевых консультантов в области инфобезопасности. Его работы заложили основы для построения моделей угроз для широкого круга приложений, от банковского дела до здравоохранения. И вот теперь Росс Андерсон с коллегами предупреждает о новой, глобальной угрозе для всего человечества — коллапсе больших языковых моделей (LLM).

Ученые предполагают, что будет происходить следующее:

•По мере наполнения Интернета плодами деятельности моделей GPT каждая новая модель будет все больше обучаться на контенте, сгенерированном предыдущими моделями.
•Это будет вызывать необратимые дефекты.
•Более поздние поколения моделей начнут производить образцы, которые никогда не были бы произведены оригинальной моделью, то есть они начнут неправильно воспринимать реальность, основываясь на ошибках, внесенных их предками.

Помните комедию «Множественность» с Майклом Китоном в главной роли, в которой человек клонирует себя, а затем клонирует клонов? При этом каждый новый клон становится глупее предыдущего.

С LLM будет происходить то же самое. Если вы обучаете музыкальную модель Моцарту, вы ожидаете, что результат будет похож на Моцарта: пусть без того блеска (и потому назовем эту модель «Сальери»), но похож. Но когда потом Сальери обучит следующее поколение, а то поколение — следующее и так далее, как будет звучать пятое или шестое поколение? Очевидно, все хуже и хуже.

Подобный процесс интеллектуальной деградации моделей назван Россом Андерсоном и его коллегами по исследованию «коллапсом модели».

В результате такого коллапса Интернет все больше будет забиваться чушью — мусорными данными и мусорной информацией.

Но это еще не все. Ибо это будет не просто мусор (чушь, не имеющая информационной ценности), а «радиоактивный» мусор, использование которого будет опасно для результатов деятельности и когнитивной безопасности пользователей.

Основная опасность для бизнеса будет проистекать из постоянного «радиоактивного фона». Уже использовавшие ChatGPT или аналогичные инструменты для получения ответов на нетривиальные вопросы, знают, что иногда они выдают абсолютно неверную информацию. К тому же, подобные ИИ-системы часто не раскрывают источники информации или ссылаются на несуществующие источники своих т.н. «галлюцинаций». Операционный и репутационный ущерб для бизнеса и отдельных специалистов, принимающих решения на основе такой информации, может быть колоссален.

Основная угроза для когнитивной безопасности людей, пользующихся такими ИИ-системами, будет заключаться в том, что не только LLM будут напитываться из Интернета чушью во все возрастающих объемах. Этой же чушью будут напитываться люди.

Нарастающая вредоносность заполнения Интернета чушью будет проявляться многообразно. Люди будут неумолимо глупеть, а в обществе будет нарастать «интеллектуальная слепота». Станет сложнее отличить правду от лжи, поэтому начнутся проблемы с критическим мышлением. Чрезмерные дозы «радиоактивного информационного мусора» спровоцируют усиление когнитивных искажений, как отдельных людей, так и всего общества. Под влиянием этого процесса представления людей о мире будут становиться все более кривыми.

Как ни страшна вышеописанная перспектива, это лишь предупреждение, а не приговор.

Впрочем, аналогичным образом не стоит уподобляться и наивным техно-оптимистам, поступающим ровно наоборот.

В качестве противоядия от превращения Интернета в свалку «радиоактивного» информационного мусора, исследование Росса Андерсона и его коллег предлагает два конкретных способа предотвращения коллапса модели.

Первый способ заключается в обязательном сохранении копии оригинального набора данных, созданного человеком, и недопущении загрязнения этой копии данными, сгенерированными LLM. Второй способ заключается во включении в процесс обучения модели новых, чистых данных, сгенерированных людьми.

Есть и другие важные задачи: разработка политик для оценки точности моделей и их тщательного тестирования, а также построение надежной системы обеспечения качества моделей и генерируемых ими результатов.

Ничто из названного, к сожалению, пока не находится в приоритетном списке важнейших задач ни одного из правительств. И это очень опасно. Ибо здесь, в отличие от вызовов глобальной экологии, десятков лет у человечества не будет.

Юрий Рыжков

Подробнее по теме