Свет, камера, промпт. 7 лайфхаков для генерации реалистичных изображений
© Коллаж: «Теперь вы знаете», создано при помощи нейросети
Структурируйте промпт
Проблема: в общении с нейросетью пользователи часто как думают, так и пишут. Например, «красивая девушка в лесу». Модель получает этот запрос и не понимает, что важнее — лицо, одежда, освещение или фон. В итоге картинка может получиться размытой, с лишними деталями или напоминать кадр из мультика, тогда как вы хотели реалистичное фото.
Это происходит потому, что нейросеть не умеет читать мысли. Она обрабатывает слова по порядку и не знает ваших приоритетов. Без четкой структуры промпта качество картинки будет ниже.
Решение. Используйте формулу: объект → детали объекта → окружение → свет → стиль → технические параметры.
Сначала опишите главное (кто или что на картинке), потом добавьте детали (как выглядит), затем окружение (где находится), освещение (откуда падает свет), стиль (фотография, арт, 3D) и технические моменты (разрешение, резкость).
Думайте о промпте как о техническом задании для дизайнера. Чем конкретнее описание, тем точнее результат.
Пример промпта: портрет женщины 25−30 лет, длинные каштановые волосы, серые глаза, светлая кожа. Она стоит на тропе в сосновом лесу. Мягкий золотистый свет падает сбоку, создает тени на лице. Фон размыт, видны стволы деревьев и зеленая листва. Стиль: профессиональная фотография, кинематографичный портрет, высокое разрешение, четкие черты лица, спокойная улыбка
Совет:
С первого раза угадать с промптом может быть сложно. Если у вас есть премиум-подписка, скорее всего, вы можете себе позволить улучшать генерацию шаг за шагом, пробуя разные варианты. Но в бесплатных версиях количество генераций в день ограничено, так что тестировать промпты на практике выглядит слишком большой роскошью.
Чтобы немного сэкономить и сократить количество итераций, используйте нейросеть как вашего содизайнера. Откройте новый чат и попросите нейросеть выступить в роли эксперта по промптам. Покажите ей свой промпт и спросите, что можно улучшить, чтобы получить желаемый результат. Нейросеть подскажет, что можно добавить или убрать и каких параметров не хватает для лучшей генерации.
© Коллаж: «Теперь вы знаете», создано при помощи нейросети
2. Выбирайте модель под задачу
Проблема: освоить одну нейросеть и использовать только ее для любых задач — большая ошибка. Midjorney может удачно сгенерировать обложку для книги, но с реалистичным фото товара для Wildberries вряд ли справится.
Решение: каждая модель заточена под свой визуальный стиль. У нее есть встроенные предпочтения, которые невозможно полностью перебить промптом. Игнорирование этого приводит к часам переделок и посредственным результатам.
Какой ИИ выбрать для генерации изображений?
| Задача | Модель | Почему именно она |
|---|---|---|
| Коммерческая фотография товаров | Nano Banana, Flux Pro | Лучшая точность в воспроизведении материалов, текстур и освещения |
| Текст в изображениях (логотипы, постеры, упаковка) | GPT Image 1.5, Ideogram V3 Quality | Единственные модели, которые размещают читаемый текст. Ideogram лучше работает с длинными строками |
| Художественные кадры (концепт-арты, обложки книг) | Midjourney v6 | Понимает эстетику, композицию и драматизм. Дает художественную убедительность |
| Быстрое массовое производство | FLUX.1 Schnell | Идеально когда нужно много картинок и качество может быть чуть ниже |
Совет: не гонитесь за самой новой версией модели. Старые часто дают более стабильный, предсказуемый результат.
Настройте ИИ
Проблема: большинство людей генерируют изображения, не понимая, какие параметры управляют процессом. В результате одна картинка может выглядеть как недоработанный набросок, а следующая, наоборот, перегружена случайными деталями. Проблема в неправильной настройке трех параметров.
Решение: у классической фотографии есть три параметра экспозиции: выдержка, диафрагма и ISO. Они отвечают за итоговый результат. В генерации изображений тоже такие имеются:
- CFG Scale — насколько строго нейросеть следует вашему описанию. Низкое значение CFG (3−5) дает нейросети творческую свободу. Высокое (15−20) — заставляет модель жестко следовать каждому слову. Результат будет точнее, но может выглядеть неестественно.
Оптимальный диапазон: 7−12. Это золотая середина, где модель соблюдает ваш запрос, но сохраняет естественность. Для сложных промптов с множеством деталей начните с 7−9, для простых визуалов можно поднять до 12.
- Seed — это число, которое определяет стартовую точку генерации. Нейросеть не рисует картинку с нуля. Она берет цифровой «шум» вроде помех на старом телевизоре и постепенно превращает его в изображение по вашему описанию. Seed указывает, какой именно шум взять за основу.
По умолчанию seed выбирается случайно. Поэтому один и тот же промпт «портрет девушки» дважды выдаст два разных лица. Но если зафиксировать seed (например, 12 345), то с одним промптом и одинаковыми настройками результат будет очень похожим. Но не абсолютно идентичным, ведь на итог влияют версия модели и железо.
Seed работает только внутри одной нейросети. Число из Midjourney не даст тот же результат в Stable Diffusion — каждая модель интерпретирует шум по-своему.
Шаг 1: сгенерируйте первое изображение. Нейросеть выдаст картинку и автоматически присвоит ей случайный seed, например 8547362019.
Шаг 2: найдите seed сгенерированного изображения. В Midjourney нажмите на конверт под картинкой или используйте реакцию ✉️. Бот пришлет seed в личные сообщения. В Stable Diffusion seed показывается под картинкой в интерфейсе
Шаг 3: зафиксируйте этот seed для следующей генерации. Чтобы использовать его снова в Midjourney — добавьте в конец промпта --seed 8547362019. В Stable Diffusion вставьте число 8547362019 в поле Seed вместо -1 (случайный).
Шаг 4: готово. Измените в промпте только то, что требуется.
- Steps определяет, сколько раз модель будет улучшать изображение. Чем дольше процесс, тем больше деталей получается захватить. 20−30 шагов подойдут для быстрых черновиков и экспериментов. 30−50 шагов — стандартный выбор для большинства задач. 50+ шагов используйте, если в изображении есть текст или нужны очень детальные текстуры.
В зависимости от модели CFG Scale, Seed и Steps могут иметь разные значения. Например, в FLUX количество Steps нельзя выставить более 28.
4. Покажите ИИ, что вы имеете в виду
Проблема: вы видите в голове картинку. Знаете, как она должна выглядеть. Но когда начинаете писать промпт, не можете описать задумку словами. А сказать «сделай как на этом фото» нельзя. Или можно?
Решение: можно. Вместо того чтобы описывать стиль словами, просто покажите нейросети эталонное изображение. Она проанализирует цвета, освещение, композицию, даже эмоциональный тон и применит все это к вашей новой картинке.
Midjourney использует параметр --sref (Style Reference). Добавляете ссылку на изображение в конец промпта, и Midjourney применяет его визуальный стиль к новому контенту. Параметр --sw (Style Weight) контролирует силу влияния от 0 до 1000, где 100 — значение по умолчанию.
Stable Diffusion и ComfyUI работают через Image-to-Image (img2img). Ключевой параметр здесь — denoise, который определяет, насколько сильно нейросеть привязана к исходнику. Низкое значение (0.3) сохранит большую часть оригинала, высокое (0.9) позволит полностью переосмыслить изображение, оставив только структуру.
Adobe Firefly использует Structure Reference — слайдер, который контролирует точность следования оригиналу. При 50% нейросеть воспринимает исходник как слабый ориентир, при 100% изображение остается почти идентичным.
Leonardo AI работает через Image Guidance с параметром strength от 0 до 1. Низкая сила — свобода воли, высокая — жесткое ограничение.
© Коллаж: «Теперь вы знаете», создано при помощи нейросети
5. Управляйте светом
Проблема: изображение выглядит плоско и просто. Проблема в отсутствии правильного света. Профессиональные фотографы знают, что свет определяет настроение, направляет внимание зрителя и создает глубину.
Решение: описывайте свет как режиссер. Используйте профессиональную терминологию. Добавляйте глубину резкости.
Основные типы освещения:
| Тип освещения | Когда использовать | Как описать в промпте |
|---|---|---|
| Golden hour (золотой час) | Романтичные портреты, теплые атмосферные кадры | золотой час, мягкий теплый свет, длинные тени, кинематографично |
| Side lighting (боковое) | Драматичные портреты, текстуры | боковое освещение под углом 45 градусов, создающее глубину и тени на лице |
| Film noir | Мистика, напряжение, высокий контраст | фильм нуар, низкое боковое освещение, глубокие драматичные тени, мокрый тротуар, отражающий неоновый свет |
| Chiaroscuro (Рембрандт) | Классические портреты, художественная драма | освещение Рембрандта с треугольником света на щеке, один мощный источник света |
| Soft light (мягкий свет) | Красивые портреты без резких теней | мягкое рассеянное освещение, плавные тени |
| Hard light (жесткий свет) | Драматичное кино, выраженные текстуры | жесткое направленное освещение, резкие тени, выраженная текстура |
Пример промпта: портрет женщины с мягким освещением золотого часа сбоку, создающим плавные тени на лице. Малая глубина резкости f/1.8, красиво размытый фон с теплым боке. Треугольник света на щеке в стиле Рембрандта. Теплая цветокоррекция, профессиональная фотография, 8K.
Глубина резкости (Depth of Field):
| Параметр | Эффект | Когда использовать |
|---|---|---|
| f/1.8–f/2.8 (широкая диафрагма) | Размытый фон, объект в фокусе | Портреты, продуктовые фото, когда нужно выделить объект |
| f/5.6–f/8 (средняя) | Частично размытый фон, больше деталей | Групповые портреты, уличная фотография |
| f/11–f/16 (узкая диафрагма) | Все в фокусе от переднего до дальнего плана | Пейзажи, архитектура, когда важны все детали |
6. Выбирайте углы
Проблема: ваши изображения могут выглядеть однообразно и искусственно, потому что камера смотрит прямо, на уровне глаз. Так происходит, когда вы не указываете ракурс в промпте и нейросеть выбирает безопасный вариант — eye level, на уровне горизонта. Это хорошее решение для фото на паспорт, но плохое, если вы хотите добиться от изображения чего-то большего.
Решение: указывайте угол съемки в промпте. Это добавляет динамику, эмоцию, драматизм.
Основные углы камеры:
| Угол | Эффект |
|---|---|
| Low angle (снизу вверх) | Объект выглядит сильным, доминирующим, героическим |
| High angle (сверху вниз) | Объект выглядит слабым, уязвимым, подавленным |
| Bird's eye view (прямо сверху) | Всевидящий взгляд, масштаб, отстраненность |
| Worm's eye view (прямо снизу) | Необычная перспектива, усиление масштаба объектов |
| Eye level (на уровне глаз) | Нейтральность, равенство, документальность |
| Extreme close-up (очень близко) | Максимальная интимность, эмоции без слов |
| Dutch angle (камера набок) | Дезориентация, тревога, нестабильность |
Пример промпта: низкий угол съемки, красный спортивный автомобиль на мокром асфальте ночью, отражения неоновых огней на мокрой поверхности, экстремальный динамичный ракурс, камера на уровне колеса смотрит вверх, драматичное кинематографическое освещение, высокий контраст, эстетика фильм нуар, 8K
Динамичные углы камеры привлекают внимание зрителя, но не стоит ими злоупотреблять. Иначе лишите свои работы вау-эффекта.
7. Доведите до ума
Проблема: картинка почти идеальная, но есть мелкие косяки: шум, размытость, мало пикселей. Хочется довести до ума.
Решение: используйте апскейл — специальные инструменты, которые улучшат качество изображений.
Важно сделать это в правильной последовательности: сначала убираете шум, потом усиливаете резкость, в конце увеличиваете разрешение. Не наоборот.
Инструменты для апскейла:
| Что нужно | Чем пользоваться | Как |
|---|---|---|
| Убрать шум (зернистость) | Topaz DeNoise AI или встроенное в Topaz Photo AI | Загрузить картинку, выбрать силу 80–90%, сохранить |
| Сделать четче | Topaz Sharpen AI или встроенное в Topaz Photo AI | Загрузить, выбрать модель Portrait (для лиц) или Standard (для всего остального), сохранить |
| Увеличить размер | Topaz Gigapixel AI или VanceAI | Загрузить, выбрать 2x или 4x, сохранить |
Не увлекайтесь. Если сделать слишком резко — появятся белые ореолы вокруг объектов. Если слишком сильно убрать шум — лицо станет пластиковым. Если слишком увеличить — появятся лишние детали, которых не было.
Как это работает
Для наглядности мы в нескольких нейросетях попросили сгенерировать почти одинаковые картинки. Важно:
- одна и та же нейросеть получала два разных промпта;
- сначала генерировался простой вариант, потом дополненный — это позволяло избежать искажений в виде запомненного контекста;
- для чистоты эксперимента лучше под каждую генерацию заводить отдельный чат.
В целом можно сказать, что даже по простому промпту современные нейронки научились делать вполне приличные реалистичные изображения. Но дьявол в деталях: где-то фон не соответствует желаемому настроению, где-то нейронка за неимением более четких указаний начинает фантазировать и достраивать лишний контекст, а где-то изображение просто получается слишком плоским и скучным. Так что даже если вам кажется, что «и так сойдет», просто попробуйте дополнить ваш промпт — и почувствуйте разницу.
Промпт 1: красивая девушка с рыжими волосами в белой рубашке стоит у окна в студии
Промпт 2: портрет женщины 27 лет, волнистые темно-рыжие волосы до плеч, зеленые глаза, веснушки, естественный макияж, легкая улыбка, белая льняная рубашка. Она стоит у окна в светлой студии, за спиной размытая городская улица. Мягкое боковое освещение под углом 45 градусов справа создает плавные тени на лице, треугольник света на левой щеке в стиле Рембрандта. Eye level, камера на уровне глаз. Малая глубина резкости f/2.0, лицо в резком фокусе, фон красиво размыт с мягким боке. Профессиональная портретная фотография, кинематографичный стиль, естественные цвета с легкой теплой цветокоррекцией, реалистичная текстура кожи, 8K, фотореализм.
© Коллаж: «Теперь вы знаете», создано при помощи нейросети «Алиса» от «Яндекса»
На предметах разница менее заметна, однако и тут есть место для тонкой донастройки. Например, при попытке сгенерировать просто чашку кофе на столе в кафе собственно интерьера кафе мы не получили. Зато получили вид из окна на среднестатистический спальный район старой застройки. Не везде такое уместно.
Промпт 1: чашка кофе на столе в кафе.
Промпт 2: интерьер уютной кофейни, деревянный стол на переднем плане, белая керамическая чашка с капучино и латте-артом в виде сердца, рядом круассан на небольшой тарелке, открытая книга. На заднем плане размытые силуэты посетителей у барной стойки, полки с кофейными зернами. Мягкий естественный свет падает слева через большое окно, создает теплые блики на поверхности стола и чашке, золотой час. Low angle, камера снизу на уровне стола смотрит слегка вверх на чашку. Малая глубина резкости f/2.8, чашка в резком фокусе, фон красиво размыт. Профессиональная коммерческая фотография, уютная атмосфера, кинематографичное освещение, естественные цвета с легким теплым тоном, высокая детализация, 8K, фотореализм.
© Коллаж: «Теперь вы знаете», создано при помощи нейросети