
Gemini 2.0 Flash редактирует картинки по текстовому запросу: что умеет нейросеть и как воспользоваться
Некоторые ссылки в статье недоступны из РФ
В соцсетях генератор картинок Google прозвали убийцей «Фотошопа».
Нейросеть Gemini 2.0 Flash существовала и раньше, но недавно Google добавила в нее генератор изображений. Теперь модель не только создает картинки, но и редактирует уже сгенерированные или загруженные снимки, точно выполняя запросы. В соцсетях уже появилось несколько интересных способов ее использования — расскажу подробнее.
Как воспользоваться Gemini 2.0 Flash
Новая функция пока недоступна в официальной версии чат-бота Gemini. Ей можно пользоваться на сайте Google AI Studio или по API. Второй вариант подходит для разработчиков, так что рассмотрю только первый.
Для начала работы потребуется сменить IP-адрес с российского на иностранный и перейти на сайт Google AI Studio. Это официальный сайт компании, где можно бесплатно протестировать разные модели.
Войдите в свой гугл-аккаунт, если вы не залогинены в браузере. После ввода почты, пароля и прохождения всех шагов верификации, которые запросит система, вам потребуется принять условия соглашения. Достаточно поставить галочку в первом пункте.


После входа откроется чат с нейросетью. В окне слева в разделе Model выберите Gemini 2.0 Flash (Image Generation) Experimental. Именно эта модель умеет создавать и редактировать картинки.
В чате будут три кнопки, которые запускают тестовые сценарии общения с нейросетью: редактирование фото с круассанами, создание иллюстраций для истории и генерация поздравительной открытки. Эти просто примеры, которые покажут вам, как работать с моделью.
Допустим, если нажать кнопку Image Editing, Gemini отправит заготовленную картинку с круассанами и сама напишет запрос, в котором предложит добавить шоколадную глазурь. А потом пришлет картинку с шоколадным круассаном. Вы можете продолжить редактировать изображение либо перейти в новый чат, нажав Create Prompt.
В одном чате с Gemini 2.0 Flash есть лимит в 32 786 токенов. Например, простой запрос, состоящий из слова из пяти букв, расходует 13 токенов. В среднем один символ на латинице занимает около 0,25—0,5 токена, а один символ на кириллице — 0,5—1 токен. Когда лимит исчерпается, придется запускать новый чат, чтобы продолжить работу.


Что умеет нейросеть
Нейросеть не просто генерирует изображения, но и редактирует уже готовые снимки, добавляет объекты, меняет стиль. В соцсетях постоянно находят новые фишки модели и пишут треды со сценариями использования.
Я проверил, как Gemini справляется с разными задачами — от создания фото для документов до рисования манги. Покажу на примерах, что умеет нейросеть.
Создать портрет на белом фоне на основе другого снимка. Самый популярный запрос из соцсетей — сделать фото для документов из повседневного, чтобы не идти в студию. Для этого я использовал промпт «Сделай квадратное фото на паспорт с лицом девушки, которая расположена справа. Ее лицо должно быть нейтральным, а фон — белым».
В итоге получилось не слишком похоже на девушку с примера. Но почти все мои пожелания модель учла: девушка стала более серьезной и повернулась к камере полностью. При этом фон почему-то стал частично серым — такое на документы, скорее всего, не примут.

Добавить объект в реальное фото. Я попросил дорисовать полосатого кота на обычной стоковой фотографии. Хотелось посмотреть, как точно модель передаст текстуру шерсти, освещение и впишет объект в общий фон.
Кот действительно появился на снимке, но выглядел странно. Вместо живого питомца Gemini сгенерировала что-то похожее на мраморную фигурку — гладкую, блестящую и без привычной пушистости. Возможно, роль сыграла стоковая фотография — тоже не самая естественная.

Точно воссоздать стиль. Я попробовал нарисовать машину в стиле картины «Крик» Эдварда Мунка. Для этого отправил изображение Gemini и написал, что должно в итоге получиться.
Вместо того чтобы нарисовать машину в нужном стиле, Gemini просто добавила ее на оригинальную картину. Когда я уточнил, что изображение должно быть полностью новым, с него пропали и машина, и герой. В итоге я добился результата, но он вышел в духе графического дизайна, а не масляной живописи.



Раскрашивать картинки. В качестве теста я выбрал Ам-Няма — зеленого монстрика из игры Cut the Rope, который напоминает лягушку. Интересно было посмотреть, сможет ли нейросеть распознать этот образ и правильно его раскрасить.
Gemini не определила, что на изображении что-то похожее на лягушку, и не исправилась даже после нескольких уточнений. Кроме того, модель проигнорировала фон и не раскрасила его, хотя я прямо попросил об этом.



Делать фото, которые спасут вас при опоздании. С помощью Gemini в соцсетях в шутку генерируют оправдания для босса, если просыпают работу. Например, делают снимки, где якобы едут в метро, а на фоне — недовольные пассажиры и актуальная дата.
В целом нейросеть справляется с задачей, но не без огрехов. Встречаются артефакты: Gemini почему-то объединила стену перехода с вагоном. После моего уточнения модель слегка поправила изображение, но полностью проблема не исчезла.


Колоризировать. Gemini умеет раскрашивать черно-белые фотографии. Я протестировал эту функцию на ретрофото Исаакиевского собора.
Gemini даже после наводящей подсказки не смог правильно колоризировать фотографию, зато у него вышла неплохая картина. Да, модель в целом угадала с цветами, но деревья получились слишком зелеными, а небо и земля — практически одинаковыми.


Копировать текстуры. В теории Gemini 2.0 Flash умеет переносить текстуры с одного объекта на другой. Чтобы проверить, как это работает, я попросил перенести узор с настенного ковра на диван и наоборот.
Возможно, задача оказалась слишком сложной. Нейросеть плохо ориентируется в пространстве и не понимает, как именно должна выглядеть измененная поверхность. Даже после уточняющих запросов и упрощения задания Gemini отказалась делать то, что я попросил.


Копировать внешность персонажей. Gemini 2.0 Flash должна уметь воспроизводить уникальный визуальный стиль. Я решил проверить это на примере мультсериала «Частые побочные явления», где у всех персонажей большие головы и маленькие лица.
Сначала я попросил нейросеть нарисовать ребенка в таком же стиле, но она отказалась. Видимо, из-за встроенных ограничений: это оправданно с точки зрения безопасности. Тогда я заменил ребенка на женщину, и результат оказался неплохим. Gemini уловила стиль.

Рисовать мангу. Gemini 2.0 Flash умеет создавать целые панели в стиле японских комиксов. Я попросил нарисовать сцену встречи мужчины с его другом-пилотом. Изначально хотел сделать встречу с девушкой в форме аптекаря или медсестры, но нейросеть выдала ошибку: похоже, у нее есть блок на генерацию изображений с таким запросом.
В целом результат удивительно похож на мангу, но модель не учла детали. В описании сцены я указал, что действие должно происходить у реки, но даже после повторного запроса персонажи туда так и не перенеслись.


Создавать скриншоты из игр. Это у Gemini получается отлично. Нейросеть даже позволяет прогуляться по созданному ей миру.
Кадры из игр выглядят вполне реалистично. Если не всматриваться в детали, можно подумать, что это реальный скриншот из мобильной игры. Правда, нормально повернуть персонажа не получилось: наверное, модель плохо ориентируется в пространстве.


Оправдана ли популярность модели
- Gemini 2.0 Flash пока сырая. Модель справляется с большинством задач, но далеко не всегда дает точный результат. Тесты показали, что генерация работает нестабильно.
- В соцсетях можно встретить впечатляющие результаты, но на практике добиться их сложно. Скорее всего, вирусные картинки — это тщательно отобранные удачные попытки.
- Модель не всегда понимает русский язык. В некоторых тестах Gemini игнорировала уточнения или воспринимала запросы слишком буквально.
- Gemini пока не может заменить «Фотошоп». У модели большой потенциал, но сейчас она не может полноценно конкурировать с профессиональными инструментами.
Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult