Новости
1K

OpenAI добавила в GPT⁠‑⁠4o​ продви­нутый генератор картинок

4
OpenAI добавила в GPT⁠‑⁠4o​ продви­нутый генератор картинок
Аватар автора

Джамиль Махмутов

готовится к новой волне ИИ-слопа

Страница автора

Запуск функции для всех пользователей отложили «на некоторое время»

Изначально GPT-4o с генератором картинок была доступна всем пользователям, в том числе бесплатным. Вечером 26 марта глава OpenAI Сэм Альтман сообщил, что из-за высокого интереса полноценный релиз перенесут «на некоторое время». Теперь инструментом можно воспользоваться только с подпиской на ChatGPT.

25 марта OpenAI представила обновленный генератор изображений в модели GPT‑4o.

GPT-4o — мультимодальная модель, то есть умеет работать одновременно с текстами и изображениями. Теперь GPT-4o заменяет нейросеть Dall-E 3, которая раньше отвечала за генерацию изображений в ChatGPT.

GPT-4o генерирует дольше, чем Dall-E 3, но зато она выдает более качественный результат, лучше понимает запросы и учитывает сложные инструкции. Так OpenAI ответила на недавно завирусившийся редактор изображений Gemini 2.5 Flash. Попробовать можно только по платной подписке. Расскажу, что умеет обновленная GPT-4o.

Лучше генерирует текст на картинках. В компании отмечают, что генератор подходит для создания комплексной инфографики с осмысленным текстом. В качестве примера показали картинку с объяснением дисперсии света, страницу вымышленного комикса и меню с рецептом блюд. С помощью GPT-4o также можно создавать картинки с надписями на русском языке.

Сохраняет консистентность. Модель научилась переносить внешний вид людей, животных и объектов с одной генерации в другую. Например, при создании персонажа, его внешний вид будет оставаться одинаковым на всех этапах доработки и экспериментов, независимо от количества правок.

Домашний кот, которого решили сделать героем видеоигры о детективе
Сперва ему дали кепку и монокль
А так кот выглядит на фоне открытого мира
А так кот выглядит на фоне открытого мира
Финальное изображение — меню инвентаря. Можно заметить, что дизайн героя на протяжении нескольких итераций оставался неизменным
Финальное изображение — меню инвентаря. Можно заметить, что дизайн героя на протяжении нескольких итераций оставался неизменным

Точнее следует запросам и прорабатывает детали. В OpenAI заявили, что другим нейросетям сложно нарисовать больше 5—8 объектов, GPT-4o справляется с 10—20. Это стало возможным потому, что нейросеть лучше понимает, где должен находиться каждый объект и каким он должен быть.

GPT-4o сделала картинку с 16 объектами по описаниям
GPT-4o сделала картинку с 16 объектами по описаниям

Редактирует готовые картинки. В GPT-4o можно загрузить свое изображение, чтобы нейросеть учитывала детали в новой генерации. Для примера GPT-4o попросили нарисовать патент на транспорт с треугольными колесами, используя шесть референсных картинок. А затем патент превратили в фото в Нью-Йорке.

Ради безопасности генератор не копирует во всех деталях внешность реальных людей, а создает похожих на них персонажей.

В OpenAI показали промпт и картинку, которую создали при помощи референсов
В OpenAI показали промпт и картинку, которую создали при помощи референсов
Так выглядит финальный вариант в виде фото на фоне Нью-Йорка
Так выглядит финальный вариант в виде фото на фоне Нью-Йорка

Лучше генерирует реализм. GPT-4o натренировали на разнообразных изображениях, поэтому она лучше справляется с генерацией фотореалистичных картинок, чем Dall-E.

Доступна по платной подписке. GPT-4o с генерацией картинок можно воспользоваться в ChatGPT или в нейросети для генерации видео Sora. В день запуска функция стала доступна бесплатным пользователям, но 26 марта глава OpenAI Сэм Альтман объявил, что из-за высокого интереса полноценный релиз перенесут «на некоторое время». Инструментом можно воспользоваться с любым уровнем платной подписки на ChatGPT.

Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult

Джамиль МахмутовУже оценили новые возможности GPT‑4o? Покажите свои картинки:
  • $€xXxinЯ так понимаю доступ не у всех открылся? У меня все еще старая версия2
  • Boris KölnПояснительная бригада: "s-car go" созвучно "escargo" (блюдо из запечённых улиток)7
  • любовь злаМеня монокль с цепочкой смутил0
  • Castor TroyНу такое. Я сколько ни пытался сгенерировать спрайты для Unity, он мне просто какой то хтонический ужас выдавал, и убеждал меня что #0000 это светло-синий. Я и на английском запрос пробовал создать, и детализировал максимально - не работает0
Вот что еще мы писали по этой теме