Команда Kandinsky выложила в открытый доступ KVAE-2.0 — семейство токенизаторов для диффузионных моделей генерации изображений и видео. Это базовые компоненты для создания современных моделей искусственного интеллекта, которые умеют генерировать картинки и ролики.
Решение распространяется под открытой лицензией MIT, его можно использовать в исследовательских задачах и коммерческих проектах.
«С KVAE-2.0 качественная видеогенерация стала доступнее для всех: стартапов, университетов, независимых разработчиков. Решение позволяет обучать модели генерации видео с нуля в разы быстрее и дешевле, не зависеть от зарубежных токенизаторов, достигая при этом лучших результатов по качеству. Это открывает новые сценарии — от генерации рекламных роликов с точными логотипами и текстом до учебных материалов с чёткими визуальными деталями. Все модели линейки — в открытом доступе. Это даёт инженерам и исследователям по всему миру возможность использовать их в своих разработках и стимулирует рост открытой экосистемы отечественных технологий», — отметил руководитель проекта Kandinsky, управляющий директор по исследованию данных Сбера Денис Димитров.
Токенизаторы преобразуют изображения и видео в компактный числовой код (так называемые латентные представления), с которым работают генеративные модели, такие как Kandinsky. От структуры этого представления напрямую зависят вычислительные затраты на обучение генеративной модели и ее итоговое качество.

