GPT-4o редактирует кар­тинки по тексто­вому запросу: что умеет нейросеть и как ей​ пользо­ваться
Нейросети
5K
Сгенерированное изображение — Лев Переулков / Midjourney

GPT-4o редактирует кар­тинки по тексто­вому запросу: что умеет нейросеть и как ей​ пользо­ваться

Модель перерисовывает картинки в аниме, может показать другой ракурс, переодеть персонажа или добавить текст
12
Аватар автора

Екатерина Лебедева

стала аниме

Страница автора

OpenAI запустила новые функции в ChatGPT и Sora — теперь оба инструмента умеют генерировать изображения.

Прямо в чате можно попросить что-то изменить в рисунке: сделать другой вид из окна, добавить эмоции персонажу или перенести действие в новую обстановку. Внешность героя при перерисовке сохранится, а надписи будут добавлены почти без ошибок.

Рассказываем, как работает обновление и какие пока есть ограничения.

Как воспользоваться новыми возможностями GPT-4o

Пользователи могут генерировать изображения непосредственно в диалоге с ChatGPT или на сайте Sora — это видеогенератор от OpenAI, который теперь работает и с картинками. Подписка на них общая, логин и пароль тоже, но в работе с сервисами есть различия.

Бесплатно пользователи могут создавать до трех картинок в день. Для владельцев платной подписки тоже есть лимиты — скорее всего, они меняются в зависимости от нагрузки на серверы. К примеру, я достигла лимита в 50 картинок, после этого возможность генерации заблокировали почти на девять часов. В другой день сервис не давал сгенерировать в диалоге с ChatGPT больше трех изображений за 15 минут, затем — за полчаса. При этом в интерфейсе Sora лимит не действовал.

В интерфейсе ChatGPT все редактирование происходит в режиме диалога, из визуальных инструментов — только кисть для выделения участка картинки. Она нужна, когда хотите поработать с каким-то конкретным участком, не трогая все остальное.

Все прочие параметры, например соотношение сторон и стиль, надо писать в запросе. Если их не указывать, сервис решит сам.

Если кликнуть на картинку, справа вверху появятся кнопки для оценки генерации, выделения участка или скачивания в формате PNG
Если кликнуть на картинку, справа вверху появятся кнопки для оценки генерации, выделения участка или скачивания в формате PNG

В Sora интерфейс отличается: там изображения становятся частью работы не с чат-ботом, а с будущим видео или артом. Плюс есть некоторые готовые настройки, которые можно не прописывать в запросе, а выбирать из меню: соотношение сторон, стиль, количество вариантов на выбор.

Подробнее о том, как генерировать в Sora

Что теперь умеют GPT-4o и Sora

В ChatGPT и Sora встроен полноценный генератор изображений. Раньше в рамках ChatGPT это делала нейросеть Dall-E 3, теперь картинки — такая же часть модели GPT-4o, как и текст. Можно создать свои с нуля, в том числе по запросу на русском языке, а можно изменить загруженный пример. Расскажу подробнее обо всех новых возможностях.

Генерировать сложные картинки с текстом. Самое заметное улучшение — корректная генерация текста на рисунках. Это одна из частых проблем: нейросети путались в буквах, добавляли случайные символы и не могли нарисовать что-то вроде постера, визитки или мемного шаблона, особенно если текст нужен был относительно длинный или не на английском языке. Сейчас это исправили: надписи читаемы, шрифт выглядит натурально, а текст соответствует заданию.

Я не прописывала детали, здесь промпт был простым: «Нарисуй мем с собакой, на котором написано „Я после дедлайна“»
Задание посложнее: я описала всю структуру лендинга. С таким запросом ChatGPT справился небезупречно: в русскоязычных надписях есть неточности. Но вся картинка создана за один раз
1/2
Я не прописывала детали, здесь промпт был простым: «Нарисуй мем с собакой, на котором написано „Я после дедлайна“»

Редактировать изображения. После предыдущего обновления можно было выделить на сгенерированной сервисом картинке фрагмент и попросить его перерисовать. Или просто ввести запрос текстом в чате — например, убрать какой-то предмет. Нейросеть справлялась не всегда, но возможность диалога уже была прорывом.

Сейчас можно работать как с только что сгенерированным изображением, так и с любым загруженным. Нейросеть справляется с запросами вроде «Перерисуй в стиле аниме», «Замени вид за окном на цунами и бешеных коней», «Сделай свет вечерним, как на закате» и тому подобными. Модель поймет, где фон, а где объект — и аккуратно подстроит изображение под запрос.

Редактирование идет без сложных промптов, можно общаться с чат-ботом на естественном языке, в том числе на русском. Хотя запросы на английском он все же понимает лучше.

Убирать фон и делать прозрачные PNG. Одна из важных возможностей нового редактора в ChatGPT — полноценная работа с форматом PNG. Он поддерживает прозрачность, а сервис, соответственно, научился удалять фон и создавать готовый для использования файл.

Нейросеть корректно определяет главный объект на картинке и довольно качественно его обводит. Причем и на только что сгенерированных работах, и на загруженных в чат именно для редактирования.

Можно создавать свои эмодзи за пару минут
Можно создавать свои эмодзи за пару минут

Работать с информацией с картинок. Чат-бот и раньше мог решить уравнение по фото с заданием или описать, что изображено на постере, но теперь анализ происходит быстрее и глубже. Достаточно прикрепить изображение и задать вопрос: «Что изображено на этом фото?», «Где ошибка в расчетах и графике?», «Что можно улучшить в этом дизайне визитки?» или попросить сформулировать промпт, чтобы сгенерировать что-то похожее в других нейросетях.

Также можно дать задание что-то нарисовать, основываясь на загруженных визуальных материалах.

Сохранять внешность персонажа. Нейросеть справляется с задачами вроде показа героя с картинки с другого ракурса, переноса его в другую обстановку или изменения в его облике какого-то конкретного элемента.

Но точность отрисовки может страдать — особенно это касается лиц: чуть иной разрез глаз или форма лица, длина бороды или цвет губ. Если нужен точный результат, понадобится доработка в традиционных графических редакторах.

Увеличивать размер изображений. Можно загрузить в GPT-4o фото или картинку и попросить нейросеть увеличить ее размер и разрешение. Это делают встроенные алгоритмы для анализа данных, и результат они выдают в виде файла для скачивания. Поэтому функция доступна в диалоге с ChatGPT, но не работает в Sora. Лимит генерации изображений при этом не расходуется.

Мне удавалось увеличить картинку формата PNG с исходным разрешением 1534 × 1024 пикселя в восемь раз. Больше не вышло: сервис сказал, что итоговый файл будет слишком большим, до 400 Мб.

Чего пока не умеет обновленный GPT-4o

Хотя новые возможности нейросети уже кажутся прорывом в работе с генеративным контентом, ограничения все еще есть. Вот некоторые, с которыми я столкнулась за время тестирования обновления.

🅰️ Текст на изображениях все еще неидеален — простые надписи читаемы, но русский язык, длинные фразы или сложные шрифты увеличивают риск ошибки.

🔁 Не всегда верно вносит правки в картинки. Если попросить сгенерировать вариацию изображения, результат может вообще не отличаться от оригинала. А если добавить объект или персонажа, он может оказаться не в том месте или с неправильными характеристиками.

🎯 Результат редактирования непредсказуем: чат-бот все еще не всегда точно отрабатывает правки. Например, я просила поправить на картинках количество пальцев на руке, но лишь с третьей попытки их стало пять. Иногда нейросеть выдает то же изображение, которое было, но говорит, что все сделала.

🌀 Нестандартные запросы чат-бот не понимает — например, мне не удалось добиться, чтобы чихуахуа видела в отражении себя как гордого ретривера или ручка двери отбрасывала тень, похожую на эмблему Бэтмена. Из лужи смотрел совершенно отдельный пес, а летучая мышь была скорее металлической и прибитой к двери.

🎭 Модель понимает, но не чувствует — она верно найдет фон и объект, но смена атмосферы иногда больше похожа на фильтр из соцсетей, а эмоции — на шарж.

С воображением пока сложно
С воображением пока сложно

Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult

Екатерина ЛебедеваПоделитесь самой необычной генерацией, которая у вас получилась:
  • Семён АксёновС каждым днем все лучше и лучше?0
  • Slava MillerДмитрий, зачем нам иметь более продвинутые инструменты/технологии? Очень странный вопрос, а что вы предлагаете интересно?8
  • Ольга ЯрковаДмитрий, развлекаться и постить во всех соцсетях, конечно же2
  • Анна ДухтинаА ещё она не меняет внешность (нельзя увеличить один глаз на фото), замазать круги под глазами нельзя. И ещё нельзя генерировать вымышленных персонажей типа Шрека0
  • guest qwertyНеплохо исправляет не совсем четкие изображения,но снятые с удачного ракурса.Также достаточно четко меняет фон изображения.В общем неплохо2
  • Венер НасыровЯ и со старой версией не знал что делать. Куда прикрутить🤔0
  • Slava MillerДмитрий, в том числе, почитайте на досуге какой путь проделывали технологии без которых мы сейчас не представляем свою жизнь. Можно кстати посмотреть маленький ролик о том какие летательные аппараты пытались изобрести люди, это выглядит максимально нелепо, странные конструкции, бегают, прыгают, падают, ломают себе конечности, нет что бы на лошади скакать как все приличные люди они какой то ерундой занимаются, как дети.2
  • user1453322Дмитрий, а всегда всё должно быть исключительно дорого и профессионально? Вот прям везде? Я, например, дочке читаю сказки на ЛитРес, а там нет картинок, и chatgpt генерирует прекрасные иллюстрации, они такие милые и сказочные, что их было бы не стыдно напечатать. Бывает, конечно, иногда косяк, но просто заново сгенерировать, указав на недостаток, и всё ок. И это только мой пример.1
  • user1453322Дмитрий, может быть у вас насмотренность маленькая, и вы судите по тем нескольким нелепым изображениям? Нейросети создают изображения в абсолютно разных стилях, и уверена, что вы провалили бы тест на "угадай, делал это ИИ или человек"1