Минувший год отметился стремительным ростом популярности чат-бота ChatGPT от OpenAI, что породило новые дискуссии о будущем искусственного интеллекта (ИИ). Ожидается, что в 2024 году его инструменты будут использовать уже более 300 млн человек, а сам ИИ к 2026 году будет генерировать 90% интернет-контента. Разбираемся, чему научился ИИ в 2023 году.

1.

Быть многозадачным

В марте 2023 года OpenAI выпустила мультимодальную модель GPT-4. Это был первый ИИ, способный обрабатывать входящие запросы разного формата, а затем выдавать текстовые ответы. Модель принимает информацию в виде текстов, изображений и видео, а также способна работать с документами, в которых есть текст с фото, диаграммами и скриншотами. Она выдает ответы в виде текста, программного кода или формул. ИИ распознает картинки так же точно, как и тексты, анализируя общее содержимое и отдельные детали. Он способен решать и прикладные задачи: например, если прислать фотографию содержимого холодильника, то ИИ предложит рецепты блюд, которые можно приготовить.

В декабре Google DeepMind представила своего конкурента OpenAI — семейство моделей Gemini. Они способны генерировать и обрабатывать текст, изображения, видео и программный код, а также графики и карты. В ходе презентации ИИ обобщил содержание видео в коротком тексте, ответил на заданные вопросы, которые касались ролика, и выполнил еще несколько заданий.

Gemini выполняет разнообразные задачи после короткого инструктажа

Особенность Gemini в том, что Google не обучала отдельные модели для разных задач, чтобы потом объединить их в одну, а с самого начала строила ИИ, способный воспринимать разные виды информации. Генеральный директор DeepMind Демис Хассабис отметил, что в дальнейшем модели будут снабжены имитацией восприятия окружения и тактильных ощущений. Новейшая модель уже обошла 90% экспертов-людей в различных задачах, в том числе и связанных с рассуждением.

2.

Слышать и говорить

В сентябре 2023 года OpenAI добавила в чат-бота ChatGPT функции, которые позволяют ему «слышать» и «говорить». В ноябре опция голосового распознавания стала общедоступной: теперь пользователи могут устно пообщаться с чат-ботом.

Например, человек может сфотографировать достопримечательность и расспросить ChatGPT о ее истории, либо попросить рассчитать объем пиццы, которую нужно заказать на большую компанию.

ChatGPT реагирует на просьбу рассказать сказку

Для распознавания речи OpenAI использует собственную систему Whisper с открытым исходным кодом. Разработчики утверждают, что она способна распознавать речь на английском языке практически как человек, а обучалась на 680 тысячах часов речевых данных. Whisper способна корректно воспринимать произношение с акцентом, распознавать фоновые шумы, а также технические термины и жаргон. Голос ChatGPT можно кастомизировать — выбрать мужской или женский, задать тон.

3.

Выдавать актуальную информацию

В марте вместе с анонсом модели GPT-4 OpenAI объявила о новых готовящихся функциях чат-бота ChatGPT — в том числе о функции поиска актуальной информации в интернете. До этого чат-бот оперировал знаниями, датированными 2021 годом и ранее. С марта он начал поддерживать плагины, предоставляющие пользователям доступ в интернет. В июне OpenAI добавила опцию поиска в официальное мобильное приложение ChatGPT на базе поисковика Microsoft Bing, однако она была доступна только платным пользователям с активной подпиской ChatGPT Plus. В сентябре компания объявила, что функция поиска теперь доступна и в самом ChatGPT, при этом чат-бот начал выдавать информацию с прямыми ссылками на источники. В октябре эту опцию сделали доступной для всех пользователей. Однако пока знания ИИ ограничены апрелем 2023 года.

В декабре примеру OpenAI последовали и небольшие стартапы. Например, платформа поиска на основе искусственного интеллекта Perplexity выпустила PPLX Online LLMs — нейросети, которые используют данные из интернета для предоставления актуальных ответов на вопросы. Пока доступ к нейросетям платный, стоимость начинается от 5 долларов США в месяц для пользователей тарифа Pro.

4.

Воспринимать длинный контекст

В ноябре 2023 года OpenAI выпустила модель GPT-4 Turbo, которая способна принимать в качестве запроса промпты длиной до 128 тысяч токенов (или объемом 300 страниц). Токены — это части текста, с которыми по отдельности работает модель, прежде чем суммировать результат. Для английского текста один токен обычно равняется четырем символам, для русского — двум. Предыдущая версия модели GPT-4 могла принимать в качестве запроса 32 тысячи токенов или около 75 страниц текста. Microsoft уже начала встраивать GPT-4 Turbo в ИИ-помощника Copilot (Bing Chat). Таким образом, ИИ можно будет отправлять длинные запросы прямо в браузере.

В том же месяце компания Anthropic выпустила модель Claude 2.1, которая принимает в качестве запроса не 100 тысяч, а 200 тысяч токенов (150 тысяч слов или более 500 страниц текста).

Подобное увеличение контекста дает пользователям множество преимуществ. Так, они могут загружать в чат-бота техническую документацию или целые произведения, такие как «Илиада» или «Одиссея», а ИИ будет обобщать текст, отвечать на вопросы, прогнозировать тенденции, сравнивать и сопоставлять несколько документов и выполнять другие задачи.

Ваш личный интернет
читайте также

Ваш личный интернет

Многие говорят, что ИИ захламляет интернет. Но он уже может по-настоящему помогать пользователю, а в будущем будет делать это еще лучше

5.

Быть персональным помощником

OpenAI в ноябре 2023 года представила специальный конструктор чат-ботов GPTs, с помощью которого пользователи могут персонализировать свою версию ChatGPT, наделив ее специфическими знаниями и навыками. Компания выпустила и первые примеры таких помощников — это бот для стирки, тренер по креативному письму, техконсультант и генератор стикеров.

Теперь для настройки бота достаточно один раз объяснить его обязанности, а затем проинструктировать и передать дополнительные знания. При этом все взаимодействия происходят в формате чата, и пользователю не нужно уметь программировать.

Вслед за OpenAI Microsoft также выпустила инструмент Copilot Studio для создания собственных чат-ботов. Он позволит подключать ИИ к корпоративным системам, чтобы отвечать на вопросы о товарах на сайтах, формировать аналитику и выполнять иные задачи.

Другие компании тоже предлагают свои решения. Стартап чат-ботов Character.AI, созданный бывшими исследователями Google, представил целую платформу чат-ботов с настраиваемыми ИИ-компаньонами, у которых разные характеры. Их можно встраивать в тематические чаты для общения с другими пользователями. Так, Character.AI предлагает пообщаться с ИИ-помощниками Альбертом Эйнштейном или Стивеном Хокингом, а также создать групповой чат с богами из древнегреческих мифов, такими как Зевс или Посейдон, либо сконструировать своего персонажа. Пока регистрация на платформе доступна после покупки подписки за 10 долларов США.

6.

Генерировать качественные видео

Первые нейросети для генерации видеороликов начали презентовать еще в 2022 году, но они могли создавать только простые короткие видео невысокого качества. Осенью 2022 года Google представила проект Imagen Video — нейросеть, способную создавать HD-ролики длительностью не более 5,3 секунды. Однако и они больше походили на GIF-анимации. Одновременно компания выпустила модель Phenaki, которая может генерировать реалистичное видео большей длины, но относительно низкого качества.

2023 год стал поворотным для генерации видео. В марте компания Nvidia вместе с Корнеллским университетом представила модель для превращения текста в видео под названием VideoLDM. Она способна генерировать ролики в разрешении до 2048 × 1280 пикселей и длительностью 4,7 секунды.

В ноябре компания Stability.ai, разработчик открытой модели машинного обучения Stable Diffusion, представила версию Stable Video Diffusion для создания коротких реалистичных видео. Теперь ролики, созданные ИИ, действительно напоминают работу аниматоров-людей.

Результаты генерации Stable Video Diffusion

7.

Шутить и понимать юмор

В ноябре 2023 года стартап Илона Маска xAI представил первую разработку в сфере ИИ — чат-бота Grok, который может не только понимать юмор, но и остроумно шутить. Разработчики предупредили, что ИИ склонен проявлять «бунтарские наклонности», а также его можно разговорить на темы, которые другие чат-боты обычно обходят стороной из-за цензуры. Так, пользователи просили Grok рассказать им рецепт кокаина, и ИИ выдавал ответ в шуточной форме, не содержащий опасной или запрещенной информации. Особенность Grok заключается в том, что для его обучения использовали данные из социальной сети X (Twitter), и, как предполагается, он будет получать информацию в реальном времени. Однако языковая модель Grok-1, которая лежит в основе чат-бота, пока обладает знаниями до третьего квартала 2023 года, а также информацией от экспертов по искусственному интеллекту.

Сейчас доступ к Grok есть только у избранных пользователей Х, которых пригласил к тестированию лично Илон Маск. В ближайшей перспективе его откроют и для платных подписчиков соцсети с тарифом Premium+, который стоит 16 долларов США.

Поделиться
Больше сюжетов
ЦБ отменил действовавшие с начала войны ограничения на переводы за рубеж

ЦБ отменил действовавшие с начала войны ограничения на переводы за рубеж

Россиянам и гражданам «дружественных стран» теперь можно отправлять любые суммы. Это ослабит рубль?

ФСБ отчиталась жизнями случайных людей за свой провал

ФСБ отчиталась жизнями случайных людей за свой провал

Правозащитник Дмитрий Заир-Бек разбирает самый страшный судебный приговор в новейшей истории России — по делу о подрыве Крымского моста

Спасибо, что живой

Спасибо, что живой

Антигерой нашего времени в фильме «Лермонтов» Бакура Бакурадзе – о последнем дне поэта

Я / Мы инопланетяне

Я / Мы инопланетяне

«Одна из многих» — сериал от создателя «Во все тяжкие» Винса Гиллигана, где одинокая белая женщина вынуждена спасать человечество

Заметка про «вашего мальчика»

Заметка про «вашего мальчика»

Рэпер Хаски выпустил альбом о войне – «Партизан». Разобраться в нем пытается музыкальный критик Николай Овчинников

Палаццо Снежной королевы

Палаццо Снежной королевы

Почему книга Льва Данилкина «Палаццо Мадамы» о директрисе Пушкинского музея Ирине Антоновой вызвала бурные споры

Женщина под влиянием

Женщина под влиянием

«Умри, моя любовь» Линн Рэмси в российском прокате: это сильная картина о кризисе материнства, где Дженнифер Лоуренс сходит с ума на наших глазах

Авторитаризмоведение

Авторитаризмоведение

Администрация президента выложила черновик единого учебника обществознания. Среди авторов — Мединский и Холмогоров. Мы решили поучаствовать в обсуждении

Подслушано в Кремле и Белом доме

Подслушано в Кремле и Белом доме

Обнародованные телефонные разговоры Уиткоффа, Дмитриева и Ушакова могут повлиять на судьбу мирного плана. Как обсуждают записи и кто их мог слить?