В 2010-х годах о «больших данных» стало принято говорить, как о «новой нефти». Бизнесмены и политики всего мира повторяли мантру из книги «Супердержавы ИИ» Кай-Фу Ли: «В век ИИ, когда данные — это новая нефть, Китай — новая Саудовская Аравия». Но уже к 2020 году стало ясно, что к реальности куда ближе совсем иной лозунг: «данные — это новый мусор».

Начавшаяся в 2023 «революция ChatGPT» внесла очередную фундаментальную коррективу. Популярность так называемых базисных моделей обучения (LLM) генеративного ИИ на больших данных захватила весь мир. И потребовалось всего полгода, чтобы половина сотрудников ведущих мировых компаний стала использовать большие языковые модели типа GPT-4 в своих рабочих процессах, а сотни компании стали предлагать все новые продукты со встроенным генеративным ИИ.

В результате кардинально изменилось наполнение Интернета, уже ставшего для человечества основным хранилищем данных обо всем на свете: от кулинарных рецептов, анекдотов и лайфхаков по ремонту до статистики, патентов, научных статей и всевозможной профессиональной и аналитической информации.

Тут важно понимать две вещи. До 2023 большая часть контента в Интернете была создана людьми. Именно этот контент использовался для обучения ИИ. С этого года все большая доля контента, наполняющего Интернет, будет создаваться ИИ. Речь не только о текстах — но и о числовой информации, изображениях, фото, аудио и видео.

Крайне важно понимать, куда все это ведет. Только что опубликованный препринт нового исследования группы авторов во главе с Россом Андерсоном предупреждает об огромной засаде, ожидающей мир при заполнении Интернета продукцией LLM.

Результатом может стать колоссальный урон для безопасности бизнеса, а также для интеллекта человечества.

Росс Андерсон, как отмечает Королевское общество Великобритании, членом которого он является, — «пионер и мировой лидер в области инженерии безопасности». Он один из лучших специалистов в мире по обнаружению слабостей в системах безопасности и алгоритмах, член Королевской инженерной академии и профессор персональной кафедры безопасности и компьютерной лаборатории Кембриджского университета, а также один из самых известных отраслевых консультантов в области инфобезопасности. Его работы заложили основы для построения моделей угроз для широкого круга приложений, от банковского дела до здравоохранения. И вот теперь Росс Андерсон с коллегами предупреждает о новой, глобальной угрозе для всего человечества — коллапсе больших языковых моделей (LLM).

Ученые предполагают, что будет происходить следующее:

Помните комедию «Множественность» с Майклом Китоном в главной роли, в которой человек клонирует себя, а затем клонирует клонов? При этом каждый новый клон становится глупее предыдущего.

С LLM будет происходить то же самое. Если вы обучаете музыкальную модель Моцарту, вы ожидаете, что результат будет похож на Моцарта: пусть без того блеска (и потому назовем эту модель «Сальери»), но похож. Но когда потом Сальери обучит следующее поколение, а то поколение — следующее и так далее, как будет звучать пятое или шестое поколение? Очевидно, все хуже и хуже.

Подобный процесс интеллектуальной деградации моделей назван Россом Андерсоном и его коллегами по исследованию «коллапсом модели».

В результате такого коллапса Интернет все больше будет забиваться чушью — мусорными данными и мусорной информацией.

Но это еще не все. Ибо это будет не просто мусор (чушь, не имеющая информационной ценности), а «радиоактивный» мусор, использование которого будет опасно для результатов деятельности и когнитивной безопасности пользователей.

Основная опасность для бизнеса будет проистекать из постоянного «радиоактивного фона». Уже использовавшие ChatGPT или аналогичные инструменты для получения ответов на нетривиальные вопросы, знают, что иногда они выдают абсолютно неверную информацию. К тому же, подобные ИИ-системы часто не раскрывают источники информации или ссылаются на несуществующие источники своих т.н. «галлюцинаций». Операционный и репутационный ущерб для бизнеса и отдельных специалистов, принимающих решения на основе такой информации, может быть колоссален.

Основная угроза для когнитивной безопасности людей, пользующихся такими ИИ-системами, будет заключаться в том, что не только LLM будут напитываться из Интернета чушью во все возрастающих объемах. Этой же чушью будут напитываться люди.

Матрешки зла
читайте также

Матрешки зла

Как цифровая децентрализация угрожает монополии государств и при чём тут ChatGPT

Нарастающая вредоносность заполнения Интернета чушью будет проявляться многообразно. Люди будут неумолимо глупеть, а в обществе будет нарастать «интеллектуальная слепота». Станет сложнее отличить правду от лжи, поэтому начнутся проблемы с критическим мышлением. Чрезмерные дозы «радиоактивного информационного мусора» спровоцируют усиление когнитивных искажений, как отдельных людей, так и всего общества. Под влиянием этого процесса представления людей о мире будут становиться все более кривыми.

Как ни страшна вышеописанная перспектива, это лишь предупреждение, а не приговор.

Не стоит уподобляться наивным техно-пессимистам, фокусирующихся в своих прогнозах лишь на непомерной цене прогресса технологий, оставляя без внимания колоссальную выгоду от их применения.

Впрочем, аналогичным образом не стоит уподобляться и наивным техно-оптимистам, поступающим ровно наоборот.

В качестве противоядия от превращения Интернета в свалку «радиоактивного» информационного мусора, исследование Росса Андерсона и его коллег предлагает два конкретных способа предотвращения коллапса модели.

Первый способ заключается в обязательном сохранении копии оригинального набора данных, созданного человеком, и недопущении загрязнения этой копии данными, сгенерированными LLM. Второй способ заключается во включении в процесс обучения модели новых, чистых данных, сгенерированных людьми.

Есть и другие важные задачи: разработка политик для оценки точности моделей и их тщательного тестирования, а также построение надежной системы обеспечения качества моделей и генерируемых ими результатов.

Ничто из названного, к сожалению, пока не находится в приоритетном списке важнейших задач ни одного из правительств. И это очень опасно. Ибо здесь, в отличие от вызовов глобальной экологии, десятков лет у человечества не будет.

Поделиться
Темы
Больше сюжетов
Как хотят наказывать за «отрицание геноцида советского народа»

Как хотят наказывать за «отрицание геноцида советского народа»

«Новая-Европа» разбирается в новом законопроекте, жертвами которого могут стать журналисты, историки и учителя

Джей Ди Вэнс едет на Южный Кавказ

Джей Ди Вэнс едет на Южный Кавказ

Каковы интересы Америки и какие новые геополитические смыслы обретает регион?

Маменькин сынок

Маменькин сынок

История «сибирского потрошителя» Александра Спесивцева

Разведка в Абу-Даби

Разведка в Абу-Даби

Кто такой Игорь Костюков — начальник ГРУ, возглавивший российскую делегацию на переговорах по Украине

Друзьям — деньги, остальным — закон

Друзьям — деньги, остальным — закон

Кто получает путинские гранты: от больницы РПЦ до антивоенных активистов

Три миллиона файлов по делу Эпштейна

Три миллиона файлов по делу Эпштейна

Трамп и другие контакты: что удалось обнаружить в новом и, возможно, последнем крупном массиве документов?

Поймай меня, если сможешь

Поймай меня, если сможешь

«Марти Великолепный» с Тимоти Шаламе — один из лучших фильмов сезона, рассказывающий историю об игроке в пинг-понг как криминально-авантюрную сагу

«Отношение к ним в Европе жестче, чем в первый год войны»

«Отношение к ним в Европе жестче, чем в первый год войны»

Что сейчас происходит с российскими дезертирами?

Что известно о ПНИ Прокопьевска, где из-за вспышки гриппа умерли девять человек

Что известно о ПНИ Прокопьевска, где из-за вспышки гриппа умерли девять человек

Сотрудники там жаловались на условия содержания пациентов: холод, испорченную еду и отсутствие лекарств