Интернет и СМИ
22:09, 8 октября 2024

Нейросеть Stable Diffusion: что это такое, как ей пользоваться, гайд для установки на ПК

Софья Николаева

В последние годы стремительно развивается генеративный искусственный интеллект — появляется все больше нейросетевых решений, позволяющих создавать картинки и текст. И юзеры этим начинают активно пользоваться: так, почти треть опрошенных художников хоть раз использовали нейросети в творческом процессе. «Лента.ру» рассказывает, как установить на свой персональный компьютер (ПК) и как пользоваться нейросетью Stable Diffusion.

Stable Diffusion: что это такое

Stable Diffusion — это генеративный искусственный интеллект, натренированный для создания изображений. Был создан компанией Stability AI.

Вот основные способы его применения:

Принцип работы

О принципе работы Stable Diffusion в беседе с «Лентой.ру» рассказал эксперт по нейросетям, автор курса для школьников «Нейросети для учебы и жизни» в «ИнтернетУрок» Александр Жадан: «У Stable Diffuison диффузионный принцип генерации. Это значит, что в нейросети собрана большая база исходных изображений (пары картинка-текст), к которым добавляется шум, чтобы делать новые изображения за счет добавления деталей. Если не добавлять шум, то на выходе нейросеть просто выдавала бы имеющиеся файлы из своего набора».

Руководитель группы продуктов факультетов геймдизайна и разработки игр и искусственного интеллекта Университета «Синергия» Сергей Толокольников поясняет с помощью понятной метафоры: «Представьте, что нейросеть берет описание, например, "дом в лесу зимой", и поэтапно, как если бы размытые очертания становились все четче, создает изображение. В основе процесса лежит работа с шумом, который постепенно превращается в детализированную картину».

Как развивались генеративные нейросети

Первые генеративные нейросети были коммерческими: их нельзя было загрузить на компьютер, дополнить и дообучить под свои задачи. Со временем появились open-source модели, доступные для скачивания. По словам директора по инновациям Wink и преподавателя Британской высшей школы дизайна Артема Орлова, самой популярной стала именно Stable Diffusion: «Любой мог скачать XL-версию, закинуть туда сто изображений Москвы, например, и на выходе получить модель, которая знает все про город». Развитие пошло дальше: в 2023 году добавился дополнительный AI-инструмент (AI ― от англ. artificial intelligence, «искусственный интеллект»), ControlNet, с помощью которого пользователи могли генерировать изображения не только на основе текстового промта, но и с помощью других изображений и набросков.

Проблемы с авторским правом

О проблемах с авторским правом «Ленте.ру» рассказал эксперт по ИИ, основатель и директор проекта BotB2b Виктор Попов. По его словам, команда Stability AI использовала для обучения нейросети картины известных художников, изображения с сайтов-агрегаторов, где авторы продают свои работы или выкладывают в бесплатный доступ.

«Именно это привело к большому скандалу. Выяснилось, что многие стили нейросеть фактически украла у современных художников и дизайнеров, — говорит Попов. — Дошло до того, что созданные нейросетью изображения стали популярнее оригиналов работ художников. Так произошло с работой художника из Польши, создателя популярных фэнтези-артов Грега Рутковски».

Stable Diffusion обучалась на работах Грега Рутковски, потом пользователи нейросети создали много изображений в стиле художника. А теперь фанатские работы стали популярнее оригиналов

В России нейросетевое творчество пока находится в серой правовой зоне, и единого решения по авторскому праву в отношении сгенерированных изображений пока не было найдено.

Целевая аудитория

По мнению эксперта по нейросетям Александра Жадана, Stable Diffusion — это более профессиональный инструмент, в отличие от программ Midjourney, Dalle или Kandinsky. «Если приблизительно сравнивать, то Midjourney, Dalle, Kandinsky — это фотография в хороший солнечный день на последний iPhone, а Stable Diffusion — это снимок на профессиональный фотоаппарат с большим объективом, со штативом и так далее. Как и с фото, у новичка может получиться слишком темный кадр или с точки зрения композиции некрасивый. Поэтому нужен особый подход и настройка».

Где и как использовать Stable Diffusion

Использовать Stable Diffusion можно двумя способами, рассказала в беседе с «Лентой.ру» технологический предприниматель, управляющий партнер платформы LMS/LXP Distant Global Наталья Абабий:

По словам Абабий, возможности онлайн-версии ограничены, в нее нельзя загрузить референсы изображений, а размер картинок у нее стандартный — 512x512 пикселей.

Использование нейросети онлайн

Чтобы использовать нейросеть онлайн, нужно воспользоваться сервисами.

Это онлайн-сервис авторства команды, разработавшей Stable Diffusion. Сервис не бесплатный, в нем, как и во многих других нейросетевых решениях, используется система кредитов — особой валюты, которой можно платить за генерацию.

Чтобы дать пользователям, ранее не генерировавшим картинки, шанс опробовать сервис, администрация начисляет новым юзерам по 100 кредитов. Этого хватает, чтобы сгенерировать 500 изображений на стандартных настройках. В зависимости от сложности дополнительных настроек цена за промпт может меняться. Когда кредиты закончатся, можно приобрести новые — тысячу штук за 10 долларов, но для покупки понадобится иностранная банковская карта.

Крупнейшая платформа для работы с моделями. На ней выложены версии Stable Diffusion, с которыми можно бесплатно поработать онлайн, но иногда генерация может занимать больше 20 секунд, и функционал немного обрезан. Также на сервисе есть генератор детализированных промптов для тех, кто не уверен в своих силах промпт-инженера.

Приложение (веб и мобильное) с удобным интерфейсом. В разделе Studio доступны более 30 популярных моделей. По умолчанию создаются изображения в высоком разрешении без дополнительной платы за улучшение качества. В разделе «Аватар» можно загружать фотографии и превращать их в художественные работы, используя один из 17 стилей.

Сайт для генерации изображений и сообщество для AI-энтузиастов. Нейросетевые художники могут делиться результатами своего творчества и следить за чужими успехами. Предлагает разнообразные стили и возможности настройки промптов. Бесплатно доступны только старые модели, для новых требуется покупка кредитов.

Платформа для генерации изображений на базе моделей Stable Diffusion с оплатой авторам за использование. Сервис платный, доступны кредиты за регистрацию, но иногда генерация занимает много времени.

Сайт с бесплатной генерацией изображений на базе моделей Stable Diffusion. Платный доступ нужен для файнтьюнинга, то есть для тонкой настройки моделей и расширенных параметров. Бесплатный план включает неограниченные генерации и изменение качества.

Бесплатный и безлимитный сервис на стыке социальной сети и сервиса для генерации изображений.

Использование нейросети на ПК

В десктопной версии больше дополнительных настроек — можно менять размер изображений и добавлять референсы, но для работы с ней потребуется видеокарта с объемом оперативной памяти 4 или 8 Гб (для обладателей Mac — процессор M1 или M2).

Чтобы установить Stable Diffusion на персональный компьютер, нужно предпринять следующие шаги.

  1. Установить на компьютер Python версии 3.10.6. по инструкции с официального сайта или воспользоваться другими методами (контейнер Docker, pyvenv, conda).
  2. Установить систему контроля версий Git — с помощью нее можно клонировать (копировать) папки с программами.
  3. Создать аккаунты на GitHub.com и Hugging Face.
  4. Открыть на своем компьютере программу Git Bash. Запустить команду cd и указать реальный пусть к папке на вашем компьютере по образцу path/to/your/folder, чтобы перейти в папку, куда вы хотите скачать программу. Клонировать репозиторий с интерфейсом с помощью команды git clone. Если все пройдет успешно, в выбранной папке появится папка stable-diffusion-webui.
  5. Зайти на Hugging Face и скачать нужную модель.
  6. Зайти в папку stable-diffusion-webui\models\Stable-diffusion, найти файл с названием Put Stable Diffusion Checkpoints here и переместить его туда.
  7. Открыть командную строку.
  8. Перейти в папку с моделью с помощью команды cd и пути по образцу path/to/stable-diffusion-webui (изменить для пути в вашем компьютере).
  9. Запустить команду webui-user.bat.
  10. В командной строке появится адрес http://127.0.0.1:7860/. Его нужно ввести в адресную строку браузера, и можно приступить к генерации.

Как генерировать изображения с помощью Stable Diffusion

Нейросеть может генерировать изображения на основе промпта или готового изображения.

Как составить промпт

Превращение текста в изображение — базовая функция, которую нейросеть может выполнять вне зависимости от модели. Абабий советует начать промпт с указания ключевых объектов, поскольку нейросеть придает большее значение словам в начале текстового запроса.

Далее следует перейти к описанию действий и характеристик объектов. «Не забудьте про место действия и стилистику изображения — можно взять за основу стили популярных живописцев, фотографов и игровых концепт-артов, — посоветовала собеседница «Ленты.ру». — Подсмотреть готовые промпты можно в сообществе PromptoMania — здесь собраны изображения и их подробные описания для работы со Stable Diffusion».

Для более эффективной работы с Stable Diffusion нужно уметь не только составлять хороший промпт, но и ознакомиться со списком параметров. От них зависит, как будет выглядеть финальное изображение.

Отрицательный промпт

Negative Prompt — это указание на то, чего не должно быть на изображении.

Количество шагов

Steps — количество шагов, за которое ИИ создает изображение, начиная с шума.

Уменьшение шума

Samplers (сэмплеры) — алгоритмы, управляющие процессом уменьшения шума. Самые популярные:

Свобода действий

CFG Scale (шкала CFG, также Prompt Strength) определяет баланс между свободой действия ИИ и точностью исполнения промпта.

Начальный шум

Seed (сид) — число, определяющее начальный шум, от которого зависит финальное изображение. Одинаковый сид + одинаковый промпт = одинаковое изображение. Это значит, что при использовании разных (или рандомизированных) значений сида программа несколько раз выдаст разные изображения даже при одинаковых промптах, а использование одного и того же сида при одинаковых промптах выдаст одинаковые изображения в разные генерации. Это полезно для контроля характеристик, тестирования изменений и смены стиля.

Изображение из изображения

Img2img — создание картинки на основе загруженного изображения, к которому добавляется шум в зависимости от параметра Strength (Сила).

Разрешение

Resolution (разрешение) — размер картинки. Разные модели тренировались на картинках разного размера, поэтому лучше выбирать разрешение в зависимости от модели, которую вы будете использовать.

Модель

Stable Diffusion — это целое семейство моделей (Model). Существует не только несколько официальных релизов, но и множество моделей, обученных пользователями благодаря тому, что у Stable Diffusion открытый код.

Разработчики моделей советуют начинающим художникам экспериментировать с разными моделями в зависимости от стиля будущих картинок и целей генерации. В таблице ниже представлены популярные стабильные модели.

Stable Diffusion: главное о нейросети

< Назад в рубрику