GPT-4o редактирует кар­тинки по тексто­вому запросу: что умеет нейросеть и как ей​ пользо­ваться
Нейросети
786
Сгенерированное изображение — Лев Переулков / Midjourney

GPT-4o редактирует кар­тинки по тексто­вому запросу: что умеет нейросеть и как ей​ пользо­ваться

Модель перерисовывает картинки в аниме, может показать другой ракурс, переодеть персонажа или добавить текст
6
Аватар автора

Екатерина Лебедева

стала аниме

Страница автора

OpenAI запустила новые функции в ChatGPT и Sora — теперь оба инструмента умеют генерировать изображения.

Прямо в чате можно попросить что-то изменить в рисунке: сделать другой вид из окна, добавить эмоции персонажу или перенести действие в новую обстановку. Внешность героя при перерисовке сохранится, а надписи будут добавлены почти без ошибок.

Рассказываем, как работает обновление и какие пока есть ограничения.

Как воспользоваться новыми возможностями GPT-4o

Пользователи могут генерировать изображения непосредственно в диалоге с ChatGPT или на сайте Sora — это видеогенератор от OpenAI, который теперь работает и с картинками. Подписка на них общая, логин и пароль тоже, но в работе с сервисами есть различия.

Бесплатно пользователи могут создавать до трех картинок в день. Для владельцев платной подписки тоже есть лимиты — скорее всего, они меняются в зависимости от нагрузки на серверы. К примеру, я достигла лимита в 50 картинок, после этого возможность генерации заблокировали почти на девять часов. В другой день сервис не давал сгенерировать в диалоге с ChatGPT больше трех изображений за 15 минут, затем — за полчаса. При этом в интерфейсе Sora лимит не действовал.

В интерфейсе ChatGPT все редактирование происходит в режиме диалога, из визуальных инструментов — только кисть для выделения участка картинки. Она нужна, когда хотите поработать с каким-то конкретным участком, не трогая все остальное.

Все прочие параметры, например соотношение сторон и стиль, надо писать в запросе. Если их не указывать, сервис решит сам.

Если кликнуть на картинку, справа вверху появятся кнопки для оценки генерации, выделения участка или скачивания в формате PNG
Если кликнуть на картинку, справа вверху появятся кнопки для оценки генерации, выделения участка или скачивания в формате PNG

В Sora интерфейс отличается: там изображения становятся частью работы не с чат-ботом, а с будущим видео или артом. Плюс есть некоторые готовые настройки, которые можно не прописывать в запросе, а выбирать из меню: соотношение сторон, стиль, количество вариантов на выбор.

Подробнее о том, как генерировать в Sora

Что теперь умеют GPT-4o и Sora

В ChatGPT и Sora встроен полноценный генератор изображений. Раньше в рамках ChatGPT это делала нейросеть Dall-E 3, теперь картинки — такая же часть модели GPT-4o, как и текст. Можно создать свои с нуля, в том числе по запросу на русском языке, а можно изменить загруженный пример. Расскажу подробнее обо всех новых возможностях.

Генерировать сложные картинки с текстом. Самое заметное улучшение — корректная генерация текста на рисунках. Это одна из частых проблем: нейросети путались в буквах, добавляли случайные символы и не могли нарисовать что-то вроде постера, визитки или мемного шаблона, особенно если текст нужен был относительно длинный или не на английском языке. Сейчас это исправили: надписи читаемы, шрифт выглядит натурально, а текст соответствует заданию.

Я не прописывала детали, здесь промпт был простым: «Нарисуй мем с собакой, на котором написано „Я после дедлайна“»
Задание посложнее: я описала всю структуру лендинга. С таким запросом ChatGPT справился небезупречно: в русскоязычных надписях есть неточности. Но вся картинка создана за один раз
1/2
Я не прописывала детали, здесь промпт был простым: «Нарисуй мем с собакой, на котором написано „Я после дедлайна“»

Редактировать изображения. После предыдущего обновления можно было выделить на сгенерированной сервисом картинке фрагмент и попросить его перерисовать. Или просто ввести запрос текстом в чате — например, убрать какой-то предмет. Нейросеть справлялась не всегда, но возможность диалога уже была прорывом.

Сейчас можно работать как с только что сгенерированным изображением, так и с любым загруженным. Нейросеть справляется с запросами вроде «Перерисуй в стиле аниме», «Замени вид за окном на цунами и бешеных коней», «Сделай свет вечерним, как на закате» и тому подобными. Модель поймет, где фон, а где объект — и аккуратно подстроит изображение под запрос.

Редактирование идет без сложных промптов, можно общаться с чат-ботом на естественном языке, в том числе на русском. Хотя запросы на английском он все же понимает лучше.

Убирать фон и делать прозрачные PNG. Одна из важных возможностей нового редактора в ChatGPT — полноценная работа с форматом PNG. Он поддерживает прозрачность, а сервис, соответственно, научился удалять фон и создавать готовый для использования файл.

Нейросеть корректно определяет главный объект на картинке и довольно качественно его обводит. Причем и на только что сгенерированных работах, и на загруженных в чат именно для редактирования.

Можно создавать свои эмодзи за пару минут
Можно создавать свои эмодзи за пару минут

Работать с информацией с картинок. Чат-бот и раньше мог решить уравнение по фото с заданием или описать, что изображено на постере, но теперь анализ происходит быстрее и глубже. Достаточно прикрепить изображение и задать вопрос: «Что изображено на этом фото?», «Где ошибка в расчетах и графике?», «Что можно улучшить в этом дизайне визитки?» или попросить сформулировать промпт, чтобы сгенерировать что-то похожее в других нейросетях.

Также можно дать задание что-то нарисовать, основываясь на загруженных визуальных материалах.

Сохранять внешность персонажа. Нейросеть справляется с задачами вроде показа героя с картинки с другого ракурса, переноса его в другую обстановку или изменения в его облике какого-то конкретного элемента.

Но точность отрисовки может страдать — особенно это касается лиц: чуть иной разрез глаз или форма лица, длина бороды или цвет губ. Если нужен точный результат, понадобится доработка в традиционных графических редакторах.

Увеличивать размер изображений. Можно загрузить в GPT-4o фото или картинку и попросить нейросеть увеличить ее размер и разрешение. Это делают встроенные алгоритмы для анализа данных, и результат они выдают в виде файла для скачивания. Поэтому функция доступна в диалоге с ChatGPT, но не работает в Sora. Лимит генерации изображений при этом не расходуется.

Мне удавалось увеличить картинку формата PNG с исходным разрешением 1534 × 1024 пикселя в восемь раз. Больше не вышло: сервис сказал, что итоговый файл будет слишком большим, до 400 Мб.

Чего пока не умеет обновленный GPT-4o

Хотя новые возможности нейросети уже кажутся прорывом в работе с генеративным контентом, ограничения все еще есть. Вот некоторые, с которыми я столкнулась за время тестирования обновления.

🅰️ Текст на изображениях все еще неидеален — простые надписи читаемы, но русский язык, длинные фразы или сложные шрифты увеличивают риск ошибки.

🔁 Не всегда верно вносит правки в картинки. Если попросить сгенерировать вариацию изображения, результат может вообще не отличаться от оригинала. А если добавить объект или персонажа, он может оказаться не в том месте или с неправильными характеристиками.

🎯 Результат редактирования непредсказуем: чат-бот все еще не всегда точно отрабатывает правки. Например, я просила поправить на картинках количество пальцев на руке, но лишь с третьей попытки их стало пять. Иногда нейросеть выдает то же изображение, которое было, но говорит, что все сделала.

🌀 Нестандартные запросы чат-бот не понимает — например, мне не удалось добиться, чтобы чихуахуа видела в отражении себя как гордого ретривера или ручка двери отбрасывала тень, похожую на эмблему Бэтмена. Из лужи смотрел совершенно отдельный пес, а летучая мышь была скорее металлической и прибитой к двери.

🎭 Модель понимает, но не чувствует — она верно найдет фон и объект, но смена атмосферы иногда больше похожа на фильтр из соцсетей, а эмоции — на шарж.

С воображением пока сложно
С воображением пока сложно

Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult

Екатерина ЛебедеваПоделитесь самой необычной генерацией, которая у вас получилась:
  • Семён АксёновС каждым днем все лучше и лучше?0
  • Slava MillerДмитрий, зачем нам иметь более продвинутые инструменты/технологии? Очень странный вопрос, а что вы предлагаете интересно?4
  • Ольга ЯрковаДмитрий, развлекаться и постить во всех соцсетях, конечно же0
  • Анна ДухтинаА ещё она не меняет внешность (нельзя увеличить один глаз на фото), замазать круги под глазами нельзя. И ещё нельзя генерировать вымышленных персонажей типа Шрека0
  • Ник Завадски> В любом профессиональном использовании нейросетевые картинки выглядят невероятно дешево и непрофессионально Слышали про такие формулировки? "И так сожрут" "Дешево и сердито" Ну так вот это - оно.0