
OpenAI добавила в GPT‑4o продвинутый генератор картинок

Запуск функции для всех пользователей отложили «на некоторое время»
Изначально GPT-4o с генератором картинок была доступна всем пользователям, в том числе бесплатным. Вечером 26 марта глава OpenAI Сэм Альтман сообщил, что из-за высокого интереса полноценный релиз перенесут «на некоторое время». Теперь инструментом можно воспользоваться только с подпиской на ChatGPT.
25 марта OpenAI представила обновленный генератор изображений в модели GPT‑4o.
GPT-4o — мультимодальная модель, то есть умеет работать одновременно с текстами и изображениями. Теперь GPT-4o заменяет нейросеть Dall-E 3, которая раньше отвечала за генерацию изображений в ChatGPT.
GPT-4o генерирует дольше, чем Dall-E 3, но зато она выдает более качественный результат, лучше понимает запросы и учитывает сложные инструкции. Так OpenAI ответила на недавно завирусившийся редактор изображений Gemini 2.5 Flash. Попробовать можно только по платной подписке. Расскажу, что умеет обновленная GPT-4o.
Лучше генерирует текст на картинках. В компании отмечают, что генератор подходит для создания комплексной инфографики с осмысленным текстом. В качестве примера показали картинку с объяснением дисперсии света, страницу вымышленного комикса и меню с рецептом блюд. С помощью GPT-4o также можно создавать картинки с надписями на русском языке.



Сохраняет консистентность. Модель научилась переносить внешний вид людей, животных и объектов с одной генерации в другую. Например, при создании персонажа, его внешний вид будет оставаться одинаковым на всех этапах доработки и экспериментов, независимо от количества правок.




Точнее следует запросам и прорабатывает детали. В OpenAI заявили, что другим нейросетям сложно нарисовать больше 5—8 объектов, GPT-4o справляется с 10—20. Это стало возможным потому, что нейросеть лучше понимает, где должен находиться каждый объект и каким он должен быть.

Редактирует готовые картинки. В GPT-4o можно загрузить свое изображение, чтобы нейросеть учитывала детали в новой генерации. Для примера GPT-4o попросили нарисовать патент на транспорт с треугольными колесами, используя шесть референсных картинок. А затем патент превратили в фото в Нью-Йорке.
Ради безопасности генератор не копирует во всех деталях внешность реальных людей, а создает похожих на них персонажей.


Лучше генерирует реализм. GPT-4o натренировали на разнообразных изображениях, поэтому она лучше справляется с генерацией фотореалистичных картинок, чем Dall-E.



Доступна по платной подписке. GPT-4o с генерацией картинок можно воспользоваться в ChatGPT или в нейросети для генерации видео Sora. В день запуска функция стала доступна бесплатным пользователям, но 26 марта глава OpenAI Сэм Альтман объявил, что из-за высокого интереса полноценный релиз перенесут «на некоторое время». Инструментом можно воспользоваться с любым уровнем платной подписки на ChatGPT.
Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult