Высокий интеллект. Топ-7 навыков, которые ИИ приобрел в 2023 году

Фото: Omar Marques / SOPA Images / LightRocket / Getty Images

Минувший год отметился стремительным ростом популярности чат-бота ChatGPT от OpenAI, что породило новые дискуссии о будущем искусственного интеллекта (ИИ). Ожидается, что в 2024 году его инструменты будут использовать уже более 300 млн человек, а сам ИИ к 2026 году будет генерировать 90% интернет-контента. Разбираемся, чему научился ИИ в 2023 году.

1. Быть многозадачным

В марте 2023 года OpenAI выпустила мультимодальную модель GPT-4. Это был первый ИИ, способный обрабатывать входящие запросы разного формата, а затем выдавать текстовые ответы. Модель принимает информацию в виде текстов, изображений и видео, а также способна работать с документами, в которых есть текст с фото, диаграммами и скриншотами. Она выдает ответы в виде текста, программного кода или формул. ИИ распознает картинки так же точно, как и тексты, анализируя общее содержимое и отдельные детали. Он способен решать и прикладные задачи: например, если прислать фотографию содержимого холодильника, то ИИ предложит рецепты блюд, которые можно приготовить.

GPT-4 объясняет, что смешного в картинке. Фото: openai.com

В декабре Google DeepMind представила своего конкурента OpenAI — семейство моделей Gemini. Они способны генерировать и обрабатывать текст, изображения, видео и программный код, а также графики и карты. В ходе презентации ИИ обобщил содержание видео в коротком тексте, ответил на заданные вопросы, которые касались ролика, и выполнил еще несколько заданий.

Особенность Gemini в том, что Google не обучала отдельные модели для разных задач, чтобы потом объединить их в одну, а с самого начала строила ИИ, способный воспринимать разные виды информации. Генеральный директор DeepMind Демис Хассабис отметил, что в дальнейшем модели будут снабжены имитацией восприятия окружения и тактильных ощущений. Новейшая модель уже обошла 90% экспертов-людей в различных задачах, в том числе и связанных с рассуждением.

2. Слышать и говорить

В сентябре 2023 года OpenAI добавила в чат-бота ChatGPT функции, которые позволяют ему «слышать» и «говорить». В ноябре опция голосового распознавания стала общедоступной: теперь пользователи могут устно пообщаться с чат-ботом.

Например, человек может сфотографировать достопримечательность и расспросить ChatGPT о ее истории, либо попросить рассчитать объем пиццы, которую нужно заказать на большую компанию.

Для распознавания речи OpenAI использует собственную систему Whisper с открытым исходным кодом. Разработчики утверждают, что она способна распознавать речь на английском языке практически как человек, а обучалась на 680 тысячах часов речевых данных. Whisper способна корректно воспринимать произношение с акцентом, распознавать фоновые шумы, а также технические термины и жаргон. Голос ChatGPT можно кастомизировать — выбрать мужской или женский, задать тон.

3. Выдавать актуальную информацию

В марте вместе с анонсом модели GPT-4 OpenAI объявила о новых готовящихся функциях чат-бота ChatGPT — в том числе о функции поиска актуальной информации в интернете. До этого чат-бот оперировал знаниями, датированными 2021 годом и ранее. С марта он начал поддерживать плагины, предоставляющие пользователям доступ в интернет. В июне OpenAI добавила опцию поиска в официальное мобильное приложение ChatGPT на базе поисковика Microsoft Bing, однако она была доступна только платным пользователям с активной подпиской ChatGPT Plus. В сентябре компания объявила, что функция поиска теперь доступна и в самом ChatGPT, при этом чат-бот начал выдавать информацию с прямыми ссылками на источники. В октябре эту опцию сделали доступной для всех пользователей. Однако пока знания ИИ ограничены апрелем 2023 года.

ChatGPT собирает последние отзывы о пригородных велосипедах. Скриншот: X

В декабре примеру OpenAI последовали и небольшие стартапы. Например, платформа поиска на основе искусственного интеллекта Perplexity выпустила PPLX Online LLMs — нейросети, которые используют данные из интернета для предоставления актуальных ответов на вопросы. Пока доступ к нейросетям платный, стоимость начинается от 5 долларов США в месяц для пользователей тарифа Pro.

Сравнение ответов pplx-7b-online, pplx-70b-online и gpt-3.5 на один и тот же запрос. Скриншот: perplexity.ai

4. Воспринимать длинный контекст

В ноябре 2023 года OpenAI выпустила модель GPT-4 Turbo, которая способна принимать в качестве запроса промпты длиной до 128 тысяч токенов (или объемом 300 страниц). Токены — это части текста, с которыми по отдельности работает модель, прежде чем суммировать результат. Для английского текста один токен обычно равняется четырем символам, для русского — двум. Предыдущая версия модели GPT-4 могла принимать в качестве запроса 32 тысячи токенов или около 75 страниц текста. Microsoft уже начала встраивать GPT-4 Turbo в ИИ-помощника Copilot (Bing Chat). Таким образом, ИИ можно будет отправлять длинные запросы прямо в браузере.

В том же месяце компания Anthropic выпустила модель Claude 2.1, которая принимает в качестве запроса не 100 тысяч, а 200 тысяч токенов (150 тысяч слов или более 500 страниц текста).

Подобное увеличение контекста дает пользователям множество преимуществ. Так, они могут загружать в чат-бота техническую документацию или целые произведения, такие как «Илиада» или «Одиссея», а ИИ будет обобщать текст, отвечать на вопросы, прогнозировать тенденции, сравнивать и сопоставлять несколько документов и выполнять другие задачи.

5. Быть персональным помощником

OpenAI в ноябре 2023 года представила специальный конструктор чат-ботов GPTs, с помощью которого пользователи могут персонализировать свою версию ChatGPT, наделив ее специфическими знаниями и навыками. Компания выпустила и первые примеры таких помощников — это бот для стирки, тренер по креативному письму, техконсультант и генератор стикеров.

Кастомизированные ИИ-помощники от OpenAI. Скриншот: openai.com

Теперь для настройки бота достаточно один раз объяснить его обязанности, а затем проинструктировать и передать дополнительные знания. При этом все взаимодействия происходят в формате чата, и пользователю не нужно уметь программировать.

Вслед за OpenAI Microsoft также выпустила инструмент Copilot Studio для создания собственных чат-ботов. Он позволит подключать ИИ к корпоративным системам, чтобы отвечать на вопросы о товарах на сайтах, формировать аналитику и выполнять иные задачи.

Другие компании тоже предлагают свои решения. Стартап чат-ботов Character.AI, созданный бывшими исследователями Google, представил целую платформу чат-ботов с настраиваемыми ИИ-компаньонами, у которых разные характеры. Их можно встраивать в тематические чаты для общения с другими пользователями. Так, Character.AI предлагает пообщаться с ИИ-помощниками Альбертом Эйнштейном или Стивеном Хокингом, а также создать групповой чат с богами из древнегреческих мифов, такими как Зевс или Посейдон, либо сконструировать своего персонажа. Пока регистрация на платформе доступна после покупки подписки за 10 долларов США.

6. Генерировать качественные видео

Первые нейросети для генерации видеороликов начали презентовать еще в 2022 году, но они могли создавать только простые короткие видео невысокого качества. Осенью 2022 года Google представила проект Imagen Video — нейросеть, способную создавать HD-ролики длительностью не более 5,3 секунды. Однако и они больше походили на GIF-анимации. Одновременно компания выпустила модель Phenaki, которая может генерировать реалистичное видео большей длины, но относительно низкого качества.

2023 год стал поворотным для генерации видео. В марте компания Nvidia вместе с Корнеллским университетом представила модель для превращения текста в видео под названием VideoLDM. Она способна генерировать ролики в разрешении до 2048 × 1280 пикселей и длительностью 4,7 секунды.

В ноябре компания Stability.ai, разработчик открытой модели машинного обучения Stable Diffusion, представила версию Stable Video Diffusion для создания коротких реалистичных видео. Теперь ролики, созданные ИИ, действительно напоминают работу аниматоров-людей.

7. Шутить и понимать юмор

В ноябре 2023 года стартап Илона Маска xAI представил первую разработку в сфере ИИ — чат-бота Grok, который может не только понимать юмор, но и остроумно шутить. Разработчики предупредили, что ИИ склонен проявлять «бунтарские наклонности», а также его можно разговорить на темы, которые другие чат-боты обычно обходят стороной из-за цензуры. Так, пользователи просили Grok рассказать им рецепт кокаина, и ИИ выдавал ответ в шуточной форме, не содержащий опасной или запрещенной информации. Особенность Grok заключается в том, что для его обучения использовали данные из социальной сети X (Twitter), и, как предполагается, он будет получать информацию в реальном времени. Однако языковая модель Grok-1, которая лежит в основе чат-бота, пока обладает знаниями до третьего квартала 2023 года, а также информацией от экспертов по искусственному интеллекту.