Международная конференция AI Journey 2023 («Путешествие в мир искусственного интеллекта») прошла 22–24 ноября. В рамках мероприятия была презентована новая версия генеративной модели для творчества от Сбера, синтезирующей изображения по тексту, — Kandinsky 3.0, а также первая в России модель генерации видео по тексту — Kandinsky Video. Управляющий директор по исследованию данных Сбера, руководитель команды разработки нейросетей Kandinsky 3.0 и Kandinsky Video Денис Димитров рассказал «Ленте.ру», что и как умеют создавать эти модели, а также поделился основными трендами в области мультимодального обучения и генеративного искусственного интеллекта.
Денис, за последние пару лет генеративный искусственный интеллект сделал большой скачок в своем развитии. Какие супервозможности открывают нейросети перед людьми и бизнесом?
Денис Димитров: Нейросеть — это в первую очередь помощник человека. Технологии искусственного интеллекта дают возможность автоматизировать рутинную часть интеллектуального труда человека, каким бы этот труд ни был. Этот тезис хорошо иллюстрирует пример классической банковской задачи — кредитный скоринг клиентов. Раньше над оценкой платежеспособности клиентов банка работал целый штат специалистов, которые опрашивали клиентов, анализировали необходимую статистику и уже на основе этой информации принимали финальное решение. Сейчас этот процесс занимает несколько минут — так, с помощью классификационных моделей, обученных на больших объемах данных клиентов, можно с хорошей точностью принять решение об одобрении кредита. Впрочем, иногда все равно требуется валидация такого решения специалистом, но и в этих случаях процесс не занимает много времени. Похожих примеров можно привести очень много, причем из самых разных областей человеческой деятельности: это и медицина, и образование, и журналистика, и экономика. В последнее время речь идет о частичной автоматизации даже тех функций, которые раньше считались присущими только человеку, например, создание картин. Такие модели, как Kandinsky, позволяют снять с человека рутинную часть креативной деятельности и визуализировать задумку, выраженную текстом, и дать вдохновение человеку-художнику. Ему при этом остается просто доработать изображение, синтезированное моделью.
В Сбербанке вы руководите обучением нейросети Kandinsky, которой сегодня пользуются миллионы россиян. Расскажите о возможностях новой версии — 3.0.
Kandinsky — это целая линейка нейросетей для генерации изображений по тексту. Сейчас у нас шесть моделей, первая из которых появилась еще в далеком 2021 году. Стоит сказать, что любая нейронная сеть — это довольно сложная математическая функция, которая зависит от некоторого (на практике — часто очень большого) количества параметров. Эти параметры настраиваются во время процесса обучения этой нейросети, то есть «пропускания» через нее обучающих данных. Самая последняя версия нашей нейронной сети, которую мы представили в рамках конференции AI Journey 2023, — Kandinsky 3.0, — состоит из трех блоков (каждый из которых является отдельной нейросетью) и суммарно содержит почти 12 миллиардов параметров. Для обучения нейросети мы использовали обновленный датасет в размере 1,5 миллиарда пар «текст — изображение», содержащий данные, которые прошли многоэтапные процедуры фильтрации, — и это в итоге привело к заметному повышению качества генераций. Новая версия в сравнении с предыдущими лучше понимает текстовый запрос пользователя. Она умеет создавать еще более фотореалистичные изображения. Кроме того, мы выпустили Kandinsky Video — первую в России генеративную нейросеть для создания полноценных видеороликов по текстовому описанию. Архитектура Kandinsky Video состоит из двух ключевых блоков: первый отвечает за создание ключевых кадров, из которых складывается структура сюжета видео, а второй — за генерацию интерполяционных кадров, которые позволяют достичь плавности движений в финальном видео. И в основе двух блоков, конечно же, лежит Kandinsky 3.0. Мы стремимся к развитию креативных возможностей нейросетей и дальше будем их совершенствовать.
Расскажите, какие задачи сейчас стоят перед вашей командой?
Задач много, и чем дальше, тем их становится больше. Это связано со значительным увеличением количества и качества как научных исследований в области искусственного интеллекта в мире в целом, так и их бизнес-применений. А мы, конечно, не можем отставать. Если вы посмотрите, как всего три года назад state-of-the-art (то есть лучшая по качеству) нейросеть для синтеза изображений по тексту генерировала картинки, то увидите, что это не идет ни в какое сравнение с качеством генерации изображений современными text-to-image-нейросетями. То есть за эти годы произошел именно качественный скачок в решении задачи синтеза изображений по тексту. Сейчас нейросетями генерируются картинки, которые почти неотличимы от созданных человеком. Однако в инженерном деле нет предела совершенству. Наша задача — улучшать текущую версию модели, адаптировать ее для решения прикладных задач (таких, например, как генерация объектов промышленного дизайна), создавать следующие версии моделей, которые еще лучше понимают текстовые запросы пользователей и генерируют еще более приятные глазу человека изображения. Кроме того, предстоит развивать модель генерации видео по тексту (тут мы вообще первопроходцы в России), в том числе «осваивать» новые модальности — такие как 3D или даже 4D.
Также надо сказать, что мощным толчком к развитию генеративной области стал тренд на обучение фундаментальных моделей — и особенно больших языковых моделей. Такие модели обучаются на огромных неразмеченных наборах данных (обычно собранных в интернете) и за счет этого способны решать — или быстро дообучаются решать — самые разные задачи. Примерами таких моделей являются модели, лежащие в основе GigaChat (ruGPT-3.5) или ChatGPT (GPT-3.5, GPT-4). Обучаясь на триллионах слов (а точнее, маленьких фрагментов текста — токенов) из интернета, эти модели могут написать, продолжить, кратко изложить или перевести текст, дополнить, написать и переписать код, сгенерировать аккорды для гитары в стиле определенного исполнителя и многое другое. Конечно, не любая задача пока что может быть решена успешно, но во многих задачах такие модели уже сегодня не уступают людям. Моя команда занимается в том числе и обучением таких моделей, особенно в мультимодальном ключе — мы учим одну нейронную сеть не только понимать текст, но и уметь поддерживать мультимодальные диалоги (например, по тексту, по картинке и по аудио). Такая нейросеть может быть положена в основу умного помощника, который способен общаться с вами не только текстом, но и визуальными образами (например, может, отвечать на сложные вопросы по присланному изображению или видео) или звуком. Kandinsky, кстати говоря, тоже фундаментальная модель.
Денис, расскажите, как проходит обучение Kandinsky. Сколько человек участвует в этом процессе и отданы ли какие-то задачи искусственному интеллекту?
Процесс обучения наших моделей достаточно сложный и требует участия многих специалистов. Над их созданием и обучением трудятся и ученые, разбирающиеся в самых последних методах генерации изображений или видео по тексту, и сильные инженеры, которые проводят эксперименты и ставят «боевое» обучение моделей, и дата-инженеры, задача которых заключается в сборе, фильтрации и подготовке для финального обучения больших наборов данных (или датасетов). Причем датасет для обучения Kandinsky 3.0 (напомню, это 1,5 миллиарда пар «картинка — текст») глазами посмотреть физически невозможно. Поэтому для фильтрации и очистки данных используются другие модели искусственного интеллекта. Таким образом, в каком-то смысле одни модели ИИ помогают в создании других, более сложных, моделей ИИ, которые, например, генерируют изображения по тексту. И, конечно же, у нас есть большой штат разметчиков (AI-тренеров), без работы которых наши модели были бы не такими «умными».
Конференция AIJ традиционно собрала ведущих экспертов России и мира. Насколько важен обмен опытом в развитии генеративного ИИ?
Такие мероприятия подразумевают общение, а между умными людьми это общение неизбежно приводит к рождению новых идей и коллабораций. AIJ — это площадка, где можно завести новые знакомства, подискутировать, найти общие точки интересов с разными исследователями и инженерами — и в итоге сделать что-то большое и непременно крутое. В конференции участвуют в том числе и иностранные специалисты. Это тоже помогает расширить горизонты, построить команду международного уровня и совместно двигать науку. Я могу привести пример из собственной практики. Традиционно в рамках конференции AIJ мы проводим соревнования по искусственному интеллекту — AI Journey Contest. В 2020 году мы предлагали участникам решить задачу по распознаванию почерка Петра I. Тогда в общей сложности участники представили более 2700 решений. Благодаря команде, занявшей первое место, была обучена модель, распознающая рукописный почерк императора почти с 98-процентным качеством. Чтобы добиться такого результата, были придуманы новые методы аугментации данных — в том числе и новый эффективный способ генерации любого текста почерком Петра. После удалось подготовить две научные публикации и показать, что эти методы позволяют сильно улучшать базовую модель распознавания любого почерка (а не только почерка Петра I). Поэтому теперь предложенными методами пользуется все мировое сообщество. Это пример отличной командной работы и проекта, родившегося в рамках AIJ.
Денис, 2023 год подходит к концу. Какие, по вашему мнению, тренды будут актуальны на рынке ИИ в следующем году?
Ближайшее будущее, несомненно, за большими языковыми моделями, в том числе мультимодальными, а также генеративным искусственным интеллектом (эти области ИИ идут друг с другом нога в ногу). Обо всем этом мы уже подробно говорили. Эти модели в следующем году будут развиваться еще быстрее, будут создаваться новые архитектуры и оптимизироваться старые. Более того, так как такие фундаментальные нейросети могут решать огромное количество задач (после дообучения на конкретную задачу или даже без него), непременно будут развиваться многочисленные приложения, построенные на базе этих моделей. Конечно же, они найдут свое применение и в робототехнике — для создания более умных роботов, которые умеют ориентироваться в реальном мире и решать огромное количество задач (ровно как это делает любой человек).