Приложение Т—Ж
В нем читать удобнее

Как я генерирую кар­тинки в нейросетях, чтобы не скаты­ваться в ИИ⁠-⁠слоп

Проблема не всегда в инструменте
6
Как я генерирую кар­тинки в нейросетях, чтобы не скаты­ваться в ИИ⁠-⁠слоп
Аватар автора

Катя Лебедева

фотореалистичный робот

Страница автора

Часто сгенерированные изображения выглядят одинаковыми и искусственными не только потому, что их сделал ИИ.

Пластиковая кожа, лишние пальцы, случайные предметы на фоне, одинаковый «золотой час» и отсутствие идеи — ошибки человека. От него зависит, какую модель выбрать, какой промпт написать и как выбирать итоговую картинку.

Расскажу, как избежать самых грубых ошибок, когда нужен подробный промпт, а когда нет, а также почему чаще всего нужна не одна попытка.

Что я считаю ИИ-слопом

Обычно нейрослопом называют некачественный ИИ-контент, который засоряет соцсети. Иногда — вообще любые сгенерированные изображения, видео и тексты, как бы предполагая, что они все плохи по определению.

Для меня нейрослоп начинается там, где человек перестает принимать решения: не выбирает модель под задачу, не уточняет промпт, не отбраковывает слабые варианты, не проверяет детали. Нейросеть выдала что-то яркое — и это приняли за готовую работу.

Иногда все очевидно: лишние пальцы, лапы или ножки стула, непропорциональной длины руки, изгибающиеся под странными углами, предметы, которые вросли друг в друга, бессмысленные надписи.

Но чаще нейрослоп выглядит аккуратнее. На картинках красивый свет, симметричные лица с идеальной кожей и вроде бы правильная композиция. Проблема в другом: за картинкой нет идеи. Она выглядит как усредненная генерация по первому же очевидному тематическому запросу.

Поэтому я оцениваю генерацию и по отсутствию ошибок, и, что не менее важно, по смыслу. Изображение должно передавать понятную мысль, быть уместным в контексте и не выглядеть так, будто автору безразличны все, кто будет на это смотреть.

Вот несколько примеров того, что я считаю нейрослопом — по разным причинам.

Почему важно, какую нейросеть используете

Хорошая нейросеть многое сделает за человека. «Рассуждающие» модели сначала проанализируют и доработают запрос, найдут дополнительную информацию, если умеют выходить в интернет, поймут контекст и задачу пользователя. И потом уже выберут формат, стиль, цвета и другие параметры. Например, так работает Nano Banana или модель в ChatGPT.

Другие сервисы добавляют опцию улучшения промпта: нейросеть дорабатывает и раскрывает короткий запрос пользователя, а затем в этой расширенной версии можно поправить детали. Такой вариант подходит, например, для Ideogram или Reve: просто красиво нейросеть может сделать и сама, но для точного результата промпт должен быть подробным.

Еще у каждой модели есть свои сильные стороны: одни лучше работают со стилями, другие аккуратнее размещают текст на картинках, третьим удается фотореализм или небанальные лица.

Вот как меняется изображение в зависимости от запроса и использованной модели.

Способности нейросетей и, соответственно, мои предпочтения меняются пару раз в месяц, когда выходят новые модели. Плюс влияет доступность: многими инструментами сложно пользоваться из России, и ограничения везде разные. Мои фавориты такие:

  • для большинства повседневных задач вроде создания мемов или замены персонажа на фотографии — ChatGPT, потому что у меня есть платная подписка, а для доступа достаточно сменить IP-адрес;
  • для поиска по-настоящему остроумных идей — Nano Banana Pro, потому что доступ к нейросетям Google затруднен, а большинство агрегаторов убирает модель Pro из дешевых тарифных планов и заменяет на Nano Banana 2;
  • когда важнее художественность и единый стиль — Midjourney, она великолепно работает с мудбордами и эстетиками, но принимает не все даже иностранные карты;
  • когда нужна серия изображений в одном стиле и холст, чтобы составлять из них композиции, — Recraft.

Когда промпт нужно писать подробно, а когда нет

По сути, промпт — это техническое задание для очень способного и исполнительного, но не очень опытного ассистента. Промпт начинается с ответа на вопрос «Зачем нужна картинка?». Собственно, этот ответ определяет и формат — например, стикер, слайд в презентации, обложка для видеоролика, — и сюжет с композицей.

Когда хватит простого промпта. Если нужна незамысловатая красивая картинка, достаточно инструкции вроде «Нарисуй кота в мандаринах». Качество изображения будет зависеть от модели. Она же определит стиль, композицию, эстетику и другие параметры. Такой промпт еще можно использовать для поиска идей, когда я сама до конца не представляю, что должно получиться в итоге.

Милый и эстетичный кот в мандаринах по простому запросу в Seedream 4.5
Милый и эстетичный кот в мандаринах по простому запросу в Seedream 4.5

Если есть конкретные требования к результату, я вписываю их в промпт и дальше его последовательно улучшаю. Например, котик в стиле милой иллюстрации мне не подходит, я хотела как бы реальное фото, а еще чтобы кот был черным.

Тогда промпт будет такой: «Нарисуй фотореалистичного черного кота, выглядывающего из кучи мандаринов. Вокруг овощной отдел супермаркета, мандарины лежат в центре зала как сезонный товар».

Та же модель — Seedream 4.5, но с более конкретным промптом
Та же модель — Seedream 4.5, но с более конкретным промптом

Здесь кот и мандарины стали фотореалистичными и в целом угадывается супермаркет, но фон размытый, а мандарины и прочие овощи как будто навалены от витрины до витрины. Можно попытаться уточнить промпт и прописать геометрию пространства еще более детально, но я пошла другим путем.

Я знаю, что с фотореализмом хорошо справляется Nano Banana Pro, а еще она великолепно учитывает детали — гораздо лучше, чем я пропишу вручную. Плюс у нее чаще всего нет проблем с геометрией. Поэтому я не стала менять промпт, но сменила нейросеть.

Кот стал более живым, фон — детальным, расположение предметов — адекватным. Модель учла, что запрос на русском языке, а мандарины в наших краях бывают сезонным товаром скорее зимой, поэтому люди тепло одеты. Появились даже соринки на шерсти у кота, что абсолютно естественно, если ты сидишь в ящике с мандаринами.

Картинка не безупречна: мандарины почему-то лежат еще в нескольких местах зала. Но это можно исправить следующим запросом — попросить их убрать, а больше ничего не менять
Картинка не безупречна: мандарины почему-то лежат еще в нескольких местах зала. Но это можно исправить следующим запросом — попросить их убрать, а больше ничего не менять

Также много информации нейросети дают:

  • история, которую вы хотите рассказать картинкой;
  • настроение;
  • для чего эта картинка — фон для презентации, открытка, стикер, мем.

В этом случае мне не понадобилось прописывать, когда и где сделано фото, какой использован объектив, в какой позе сидит кот и другие детали. Если бы важным для моей задумки было именно это — стоило бы указать.

Когда нужен подробный промпт. Он пригодится, если вы хотите получить стабильный и воспроизводимый результат, либо если по короткому промпту генерируется вообще не то, что вы себе представляете. Тогда поможет только подробное описание деталей и контекста.

Есть несколько способов получить устойчивый промпт:

  1. Найти готовый в соцсетях — например, если хотите повторить тренд, обычно легко найти сотни постов с промптами и инструкциями.
  2. Написать свой, попробовать, дописать, снова попробовать, убрать проблемные части, попробовать еще раз.
  3. Объяснить идею ChatGPT или другой языковой модели и попросить ее написать для вас подробный промпт.

Вот в каком порядке я обычно создаю подробные инструкции:

  1. Сначала пишу промпт по базовой структуре: [формат результата] → [кто или что] → [что делает, в каком состоянии и/или в каких обстоятельствах]. Например: «Иллюстрация, где маленький робот поливает цветок на крыше дома».
  2. Если результат не устраивает, добавляю еще параметры — [настроение, стиль, эстетика, вайб] → [композиция, ракурс, свет, цветовая палитра] → [что подчеркнуть, например текстуры и детали]. К примеру, мне захотелось более кинематографичную и трогательную картинку: дождливый город, уютная индустриальная эстетика, вечерний свет, капли воды на роботе и жестяной банке, хрупкость цветка.
  3. Следующий этап доработки — указать технические параметры съемки, вплоть до модели фотоаппарата, объектива, типа освещения, фокусного расстояния. Если вы не разбираетесь в этом, можно попросить текстовую нейросеть вроде ChatGPT выбрать подходящие для вашего сюжета. Для своей иллюстрации я указала, что съемка ведется чуть снизу, а город на заднем плане мягко размыт. Также попросила имитировать объектив 35 мм, установить малую глубину резкости и проработать реалистичные текстуры и отражения в лужах, аккуратные блики на лейке, цветок в четком фокусе.
  4. Если все равно результат не очень — стоит проанализировать, с чем больше всего проблем. Возможно, эта часть картинки вам вообще не важна — тогда можно либо убрать объект из запроса, либо прописать, что вы хотите исключить. Например, мне не нравилось количество бликов, пятен, капель — дополнила запрос просьбой не добавлять лишних персонажей, предметы на крыше, вывески, сложные механические детали, перегруженный фон. Картинка должна быть спокойной, лаконичной и сосредоточенной на главной сцене.

Как я дорабатываю изображение

Я не считаю картинку готовой в момент, когда нейросеть ее сгенерировала. Это черновик — иногда хороший, иногда бесполезный. Дальше стараюсь ответить на несколько вопросов.

Подходит ли картинка туда, где я хочу ее использовать. Если это обложка — есть ли место для заголовка. Если иллюстрация к статье — показывает ли то, что я хочу сказать. Не выглядит ли изображение безликим, как будто со стока взяли первое попавшееся? Генерация может быть красивой сама по себе, но бесполезной для конкретной задачи.

Все ли в порядке с композицией и сюжетом. Я проверяю сцену целиком: есть ли понятная история, нормальная композиция и логика пространства, не спорят ли между собой главный объект и фон, не перегружен ли кадр деталями. Иногда бывает, что нейросеть нарисовала все, что указано в промпте, но итоговая картинка выглядит как случайный склад объектов.

Картинка по короткому запросу получилась слишком «нейросетевой» и как будто рекламой пуховика
Картинка по короткому запросу получилась слишком «нейросетевой» и как будто рекламой пуховика
Подробный запрос с указанием цвета, света, камеры, освещения и стилистики дал лучший результат
Подробный запрос с указанием цвета, света, камеры, освещения и стилистики дал лучший результат

Все ли в порядке с деталями. Стоит проверить руки, ноги, лапы, спинки и ножки стульев, зубы, надписи, ручки чашек и ложек, отражения, тени. Именно такие мелочи чаще всего выдают небрежную генерацию. У слона может оказаться нога вместо хобота, а на упаковке вместо названия — набор букв.

Все ли в порядке со стилем. Нейросети любят усреднять: добавлять глянец, драматичный свет, идеальную кожу, слишком кинематографичный фон и лишнюю «красоту» там, где нужна обычная бытовая сцена. Поэтому я проверяю, не выглядит ли картинка дороже, стерильнее или пафоснее, чем нужно. Если изображение не вызывает доверия, не кажется аутентичным — добавляю в промпт указание на то, где все это происходит.

После проверки я выбираю один из пяти вариантов:

  1. Оставить как есть, если картинка уже устраивает. Например, я хотела нарисовать мем для чата с коллегами, а не сложную иллюстрацию, и все получилось с первого раза.
  2. Уточнить промпт и сгенерировать заново. Например, вписать, что уличная сцена сфотографирована на пленку, а дело происходит в обычном спальном районе. Или убрать людей, если модель постоянно рисует их с ошибками.
  3. Попросить нейросеть отредактировать картинку. В диалоге с чат-ботом в большинстве случаев можно внести точечные правки — например, сказать, чтобы убрал мандарины с дальних витрин и все ценники, кроме одного возле кота.
  4. Сменить модель. Если есть возможность, стоит попробовать другую нейросеть — может получиться быстрее, чем сражаться с прежней. Если модель плохо держит геометрию пространства, я не пытаюсь десять раз объяснить ей, как устроен овощной отдел.
  5. Доработать вручную. Иногда проще замазать лишний предмет, обрезать кадр и поправить цвета в обычном фоторедакторе.

Что в итоге

  1. ИИ-картинка становится слопом, когда человек не выбирает модель, не дорабатывает промпт, не отбраковывает слабые варианты и не проверяет детали. В хорошей генерации не только нет ошибок, но и есть понятная идея.
  2. Некоторые модели сами анализируют и дорабатывают запрос, при этом у каждой есть сильные и слабые места. Выбирать нейросеть стоит под конкретную задачу.
  3. Для простой красивой картинки или поиска идеи хватит краткого запроса. Подробный промпт нужен, когда важен стабильный, воспроизводимый результат или когда по короткому запросу выходит совсем не то.
  4. Подробный промпт пишется по формуле: формат → кто или что → действие → настроение и композиция → технические детали → исключения. А иногда проще не усложнять промпт, а сменить модель или попросить нейросеть собрать запрос за вас.
  5. Сгенерированная картинка — это черновик. Стоит проверить ее по смыслу, композиции, деталям и стилю, а потом уже решать, что делать: оставить как есть, уточнить промпт, попросить нейросеть отредактировать, сменить модель или доработать вручную.

Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult

интернетнейросети
Катя ЛебедеваА как вы генерируете картинки в нейросетях?
  • СкалкаУфф! Я не могу объяснить словами, что мне надо, поэтому сперва делаю эскиз. Из последнего было фото пряника, неудачного, идея вроде есть, но дальше не складывалось. А тут надо было сделать визуализацию другого проекта, хотела посмотреть как эскиз работы будет смотреться в отливке, в бронзе, результат понравился и по той же схеме сделала серьги из пряника неудачного. И тут тоже очень понравилось. На фото - мой неудачный пряник, дальше это Алиса. Девушку сделала в flying.io (вообще это мне не нравиться, оно меня насильно подписало на себя и деньги списало) вообще не советую, с Алисой интереснее. Только ей надо давать основу, образец что хочется получить.0
  • Скалканеудачный пряник(тесто) ставший сережками0
  • Скалкаэто первый вариант с Алисой, не понравилась середина, договориться с ИИ , что бы убрала не удалось, вырезала сама0
  • СкалкаА это что в итоге получилось, понравилось и приступила к реализации замысла0
  • СкалкаЭту девушку девушку предложил flying.io, но серьги, Алиса помогла одеть0
  • Евгений СмирновЗдpaвcтвyйте. Извините, что пишy здеcь, но больше негде. Пpошy Вac о помощи, помогите, пожaлyйcтa... Cейчac ищy любyю paботy, но покa ничего не нaходитcя. Готов нa любyю подpaботкy, a cейчac домa еcть aбcолютно нечего. :-( От голодa почти теpяю cознaние. Одолжить пpоcто не y кого. одолжите, пожaлyйcтa, нa едy pyблей 100-200. Хоть нa бyлкy хлебa, хоть нa пaчкy caмых дешевых мaкapон. Мне много не нaдо, только пpотянyть неcколько дней покa ищy paботy... Еcли оcтaвите контaкты, то я готов веpнyть c пеpвой зapплaты (пеpеведy нa кapтy или номеp телефонa). В этом cлyчaе оcтaвьте cвои контaкты в личном cообщении. Я обязaтельно веpнy! Пополните, пожaлyйcтa, номеp телефонa нa любyю cyммy: 8 (952) 1-33-65-10 (бaлaнc номеpa телефонa y опеpaтоpa или по CБП) Зapaнее большое Вaм человечеcкое cпacибо.0
Сообщество
Анастасия Малина
Анастасия Малина
Где учиться ORM?