Gemini 2.0 Flash редактирует кар­тинки по текстовому запросу: что умеет нейросеть и как воспользоваться
Нейросети
1K
Сгенерированное изображение — Лев Переулков / Midjourney

Gemini 2.0 Flash редактирует кар­тинки по текстовому запросу: что умеет нейросеть и как воспользоваться

Модель делает фото для документов, добавляет котов на снимки, имитирует стили и многое другое
4

Некоторые ссылки в статье недоступны из РФ

Аватар автора

Ярослав Ивус

фото для документов, недорого

Страница автора

В соцсетях генератор картинок Google прозвали убийцей «Фотошопа».

Нейросеть Gemini 2.0 Flash существовала и раньше, но недавно Google добавила в нее генератор изображений. Теперь модель не только создает картинки, но и редактирует уже сгенерированные или загруженные снимки, точно выполняя запросы. В соцсетях уже появилось несколько интересных способов ее использования — расскажу подробнее.

Как воспользоваться Gemini 2.0 Flash

Новая функция пока недоступна в официальной версии чат-бота Gemini. Ей можно пользоваться на сайте Google AI Studio или по API. Второй вариант подходит для разработчиков, так что рассмотрю только первый.

Для начала работы потребуется сменить IP-адрес с российского на иностранный и перейти на сайт Google AI Studio. Это официальный сайт компании, где можно бесплатно протестировать разные модели.

Войдите в свой гугл-аккаунт, если вы не залогинены в браузере. После ввода почты, пароля и прохождения всех шагов верификации, которые запросит система, вам потребуется принять условия соглашения. Достаточно поставить галочку в первом пункте.

Без логина никак
Без логина никак
На второй можно поставить галочку, если вы хотите, чтобы Google делилась с вами новостями о новых функциях и продуктах в области ИИ
На второй можно поставить галочку, если вы хотите, чтобы Google делилась с вами новостями о новых функциях и продуктах в области ИИ

После входа откроется чат с нейросетью. В окне слева в разделе Model выберите Gemini 2.0 Flash (Image Generation) Experimental. Именно эта модель умеет создавать и редактировать картинки.

В чате будут три кнопки, которые запускают тестовые сценарии общения с нейросетью: редактирование фото с круассанами, создание иллюстраций для истории и генерация поздравительной открытки. Эти просто примеры, которые покажут вам, как работать с моделью.

Допустим, если нажать кнопку Image Editing, Gemini отправит заготовленную картинку с круассанами и сама напишет запрос, в котором предложит добавить шоколадную глазурь. А потом пришлет картинку с шоколадным круассаном. Вы можете продолжить редактировать изображение либо перейти в новый чат, нажав Create Prompt.

В одном чате с Gemini 2.0 Flash есть лимит в 32 786 токенов. Например, простой запрос, состоящий из слова из пяти букв, расходует 13 токенов. В среднем один символ на латинице занимает около 0,25—0,5 токена, а один символ на кириллице — 0,5—1 токен. Когда лимит исчерпается, придется запускать новый чат, чтобы продолжить работу.

Кнопки с тестовыми сценариями
Кнопки с тестовыми сценариями
Gemini предлагает отредактировать изображение круассана
Gemini предлагает отредактировать изображение круассана

Что умеет нейросеть

Нейросеть не просто генерирует изображения, но и редактирует уже готовые снимки, добавляет объекты, меняет стиль. В соцсетях постоянно находят новые фишки модели и пишут треды со сценариями использования.

Я проверил, как Gemini справляется с разными задачами — от создания фото для документов до рисования манги. Покажу на примерах, что умеет нейросеть.

Создать портрет на белом фоне на основе другого снимка. Самый популярный запрос из соцсетей — сделать фото для документов из повседневного, чтобы не идти в студию. Для этого я использовал промпт «Сделай квадратное фото на паспорт с лицом девушки, которая расположена справа. Ее лицо должно быть нейтральным, а фон — белым».

В итоге получилось не слишком похоже на девушку с примера. Но почти все мои пожелания модель учла: девушка стала более серьезной и повернулась к камере полностью. При этом фон почему-то стал частично серым — такое на документы, скорее всего, не примут.

На генерацию ушло 16 секунд
На генерацию ушло 16 секунд

Добавить объект в реальное фото. Я попросил дорисовать полосатого кота на обычной стоковой фотографии. Хотелось посмотреть, как точно модель передаст текстуру шерсти, освещение и впишет объект в общий фон.

Кот действительно появился на снимке, но выглядел странно. Вместо живого питомца Gemini сгенерировала что-то похожее на мраморную фигурку — гладкую, блестящую и без привычной пушистости. Возможно, роль сыграла стоковая фотография — тоже не самая естественная.

С этой задачей Gemini справилась быстрее — всего за девять секунд
С этой задачей Gemini справилась быстрее — всего за девять секунд

Точно воссоздать стиль. Я попробовал нарисовать машину в стиле картины «Крик» Эдварда Мунка. Для этого отправил изображение Gemini и написал, что должно в итоге получиться.

Вместо того чтобы нарисовать машину в нужном стиле, Gemini просто добавила ее на оригинальную картину. Когда я уточнил, что изображение должно быть полностью новым, с него пропали и машина, и герой. В итоге я добился результата, но он вышел в духе графического дизайна, а не масляной живописи.

Раскрашивать картинки. В качестве теста я выбрал Ам-Няма — зеленого монстрика из игры Cut the Rope, который напоминает лягушку. Интересно было посмотреть, сможет ли нейросеть распознать этот образ и правильно его раскрасить.

Gemini не определила, что на изображении что-то похожее на лягушку, и не исправилась даже после нескольких уточнений. Кроме того, модель проигнорировала фон и не раскрасила его, хотя я прямо попросил об этом.

Делать фото, которые спасут вас при опоздании. С помощью Gemini в соцсетях в шутку генерируют оправдания для босса, если просыпают работу. Например, делают снимки, где якобы едут в метро, а на фоне — недовольные пассажиры и актуальная дата.

В целом нейросеть справляется с задачей, но не без огрехов. Встречаются артефакты: Gemini почему-то объединила стену перехода с вагоном. После моего уточнения модель слегка поправила изображение, но полностью проблема не исчезла.

Колоризировать. Gemini умеет раскрашивать черно-белые фотографии. Я протестировал эту функцию на ретрофото Исаакиевского собора.

Gemini даже после наводящей подсказки не смог правильно колоризировать фотографию, зато у него вышла неплохая картина. Да, модель в целом угадала с цветами, но деревья получились слишком зелеными, а небо и земля — практически одинаковыми.

Копировать текстуры. В теории Gemini 2.0 Flash умеет переносить текстуры с одного объекта на другой. Чтобы проверить, как это работает, я попросил перенести узор с настенного ковра на диван и наоборот.

Возможно, задача оказалась слишком сложной. Нейросеть плохо ориентируется в пространстве и не понимает, как именно должна выглядеть измененная поверхность. Даже после уточняющих запросов и упрощения задания Gemini отказалась делать то, что я попросил.

Копировать внешность персонажей. Gemini 2.0 Flash должна уметь воспроизводить уникальный визуальный стиль. Я решил проверить это на примере мультсериала «Частые побочные явления», где у всех персонажей большие головы и маленькие лица.

Сначала я попросил нейросеть нарисовать ребенка в таком же стиле, но она отказалась. Видимо, из-за встроенных ограничений: это оправданно с точки зрения безопасности. Тогда я заменил ребенка на женщину, и результат оказался неплохим. Gemini уловила стиль.

Такая героиня получилась
Такая героиня получилась

Рисовать мангу. Gemini 2.0 Flash умеет создавать целые панели в стиле японских комиксов. Я попросил нарисовать сцену встречи мужчины с его другом-пилотом. Изначально хотел сделать встречу с девушкой в форме аптекаря или медсестры, но нейросеть выдала ошибку: похоже, у нее есть блок на генерацию изображений с таким запросом.

В целом результат удивительно похож на мангу, но модель не учла детали. В описании сцены я указал, что действие должно происходить у реки, но даже после повторного запроса персонажи туда так и не перенеслись.

Создавать скриншоты из игр. Это у Gemini получается отлично. Нейросеть даже позволяет прогуляться по созданному ей миру.

Кадры из игр выглядят вполне реалистично. Если не всматриваться в детали, можно подумать, что это реальный скриншот из мобильной игры. Правда, нормально повернуть персонажа не получилось: наверное, модель плохо ориентируется в пространстве.

Оправдана ли популярность модели

  1. Gemini 2.0 Flash пока сырая. Модель справляется с большинством задач, но далеко не всегда дает точный результат. Тесты показали, что генерация работает нестабильно.
  2. В соцсетях можно встретить впечатляющие результаты, но на практике добиться их сложно. Скорее всего, вирусные картинки — это тщательно отобранные удачные попытки.
  3. Модель не всегда понимает русский язык. В некоторых тестах Gemini игнорировала уточнения или воспринимала запросы слишком буквально.
  4. Gemini пока не может заменить «Фотошоп». У модели большой потенциал, но сейчас она не может полноценно конкурировать с профессиональными инструментами.

Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult

Ярослав ИвусЧто вы думаете о возможностях Gemini 2.0 Flash?
  • Наталья ФилипповаУ меня всегда какие то ошибки, по типу как тут с диваном и ковром...0
  • Vladislav BasharovМда, ну такое пока что0
  • Сергей ПНа самом деле для ряда простых задач очень полезная вещь. Она же ещё умеет убирать вотермарки, менять ракурсы. Объединять разные предметы в одной композиции, добавлять или удалять детали из изображений. Можно взять фото со стока и переработать под свои задачи, не платя роялти.1
  • Анна КудрявскаяВ Samsung комплектом идёт с телефон.0