Приложение Т—Ж
В нем читать удобнее
Kandinsky: как поль­зоваться нейросетью для генерации кар­тинок и видео от Сбера
Нейросети
259K
Иллюстрация — Даша Лейзаренко / Kandinsky 2.2

Kandinsky: как поль­зоваться нейросетью для генерации кар­тинок и видео от Сбера

Экспериментируем и сравниваем с конкурентами
84
Аватар автора

Евгений Кузьмин

протестировал нейросеть

Страница автора
Аватар автора

Катя Лебедева

дорисовала енота

Страница автора

Kandinsky — доступная и популярная в России нейросеть.

Сервис умеет генерировать картинки в разных стилях и заменять объекты на изображениях, а еще — создавать короткие анимационные ролики. В отличие от многих аналогичных сервисов, Kandinsky неплохо понимает русскоязычные запросы и учитывает их при генерации.

Расскажу, почему стоит обратить внимание на нейросеть и как она решает творческие задачи.

УЧЕБНИК Т—Ж
Как нейросети могут изменить жизнь

От рецепта ужина до изучения языков — собрали десятки рабочих и бытовых сценариев в бесплатном курсе

Баннер

Что такое Kandinsky

Kandinsky — сервис для генерации картинок от Сбера, аналог «Шедеврума» от «Яндекса», только без социальных функций. С 2022 Сбер каждый год представляет новые версии модели и отчитывается о разработках в блоге на «Хабре».

Принцип работы нейросети не отличается от конкурентов: она рисует изображения в разных стилях на основе текстового запроса или картинки. Но разработчики «Кандинского» заявляют о поддержке более 100 языков, в том числе и русского, чем не может похвастаться Midjourney. Есть и исключения: ChatGPT тоже хорошо работает с русским языком.

Со времен первой версии Kandinsky научился работать с референсами, дорисовывать части изображения и заменять объекты. Он также понимает контуры и глубину: если загрузить набросок или карту глубины, модель будет придерживаться заданной формы при генерации. C 2024 года Kandinsky также умеет генерировать короткие видео.

У нейросети от Сбера есть шесть основных режимов работы:

  1. Генерация картинки по тексту. Стандартная функция: необходимо написать текстовый запрос, а нейросеть нарисует по нему изображение.
  2. Смешивание изображений. Можно загрузить две картинки и посмотреть на микс от нейросети.
  3. Вариации изображения. Если добавить уже готовую картинку или фото, а затем задать определенную стилистику, можно получить новое изображение.
  4. Дорисовка. Можно взять фото или картинку, а затем попросить нейросеть дополнить ее оставшимися за кадром деталями. Или поменять объекты на уже сгенерированном изображении.
  5. Перенос стиля. Функция позволяет переносить позу персонажа или очертания исходного изображения на новую сгенерированную картинку.
  6. Генерация видео по текстовому запросу или на основе загруженного изображения.

Как попробовать нейросеть Kandinsky

Есть несколько способов:

  1. На сайте fusionbrain.ai, который предоставляет наиболее полный набор функций для создания и редактирования изображений. Требуется регистрация. В бесплатной версии доступно 100 запросов в месяц к модели для генерации картинок Kandinsky 3.0. Есть несколько платных тарифов, которые позволяют создавать видео.
  2. В официальном телеграм-боте GigaChat — это чат-бот для генерации текста и ответов на вопросы, аналог ChatGPT от Сбера. В интерфейс мини-приложения также встроены модели для генерации изображений и видео.
  3. На сайте Rudalle — так называлась самая первая версия нейросети Сбера для генерации картинок. Доступно только создание картинки по текстовому запросу.
  4. С помощью навыка «Включи художника» в голосовом помощнике «Салют» от Сбера. В боте GigaChat во «Вконтакте». Работает аналогично мини-приложению в телеграм-боте нейросети.
  5. В боте GigaChat во «Вконтакте». Работает аналогично мини-приложению в телеграм-боте нейросети.

Планы в Kandinsky

БесплатныйБазовыйСоздательПрофиПрофи+
Стоимость в месяцБесплатно2 399 ₽20 999 ₽58 999 ₽189 999 ₽
Количество запросов1001 000 в месяц10 000 в месяц30 000 в месяц100 000 в месяц
Что можно генерироватьТолько картинкиКартинки и видеоКартинки и видеоКартинки и видеоКартинки и видео

Планы в Kandinsky

Бесплатный
Стоимость в месяцБесплатно
Количество запросов100
Что можно генерироватьТолько картинки
Базовый
Стоимость в месяц2 399 ₽
Количество запросов1 000 в месяц
Что можно генерироватьКартинки и видео
Создатель
Стоимость в месяц20 999 ₽
Количество запросов10 000 в месяц
Что можно генерироватьКартинки и видео
Профи
Стоимость в месяц58 999 ₽
Количество запросов30 000 в месяц
Что можно генерироватьКартинки и видео
Профи+
Стоимость в месяц189 999 ₽
Количество запросов100 000 в месяц
Что можно генерироватьКартинки и видео

Телеграм-бот GigaChat — один из самых удобных способов. Он бесплатный, быстро генерирует и поддерживает основные режимы. В «Телеграме» есть боты других нейросетей, но им нельзя доверять: часто их запускают мошенники. Тут же все официально.

Как генерировать картинки в Kandinsky

Я пользовался двумя способами: телеграм-ботом и платформой fusionbrain.ai. Второе — полноценный сайт для генерации картинок. Есть область, вместо которой появится изображение, текстовое поле для запроса, а также выбор основных стилей.

Квадратом выделена как раз область генерации. Ее размеры можно изменять. Это не особенно полезно при стандартной генерации по тексту, может пригодиться в других режимах.

На сайте доступно шесть моделей для генерации изображений. Каждая подходит для разных задач:

  1. Kandinsky 4.1 — самая актуальная версия, для сложных и детализированных запросов.
  2. Kandinsky 3.1 — универсальная, для большинства задач.
  3. Kandinsky 3.0 и 2.2 — устаревшие версии. Сбер рекомендует использовать их для «живописных и авторских» работ.
  4. Kandinsky Controlnet (Image-to-Image) — модель, которая сохраняет композицию исходной картинки или позу персонажа, но меняет стиль.
  5. Flux — модель от сторонних разработчиков, вышедших из команды Stable Diffusion. Подходит для реализма и «модных визуальных решений».
Поле для генерации. Картинка генерируется внутри рамки, которую затем можно отодвигать в сторону, чтобы дорисовывать новые части
Поле для генерации. Картинка генерируется внутри рамки, которую затем можно отодвигать в сторону, чтобы дорисовывать новые части

Кроме того, доступно около двадцати стилей, список и количество время от времени меняются. Набор обычен для аналогичных сервисов: киберпанк, аниме, карандашный рисунок, традиционная живопись. Из нестандартных отдельным пунктом значится хохлома. Иногда со списком стилей экспериментируют, например добавляют «Советские мультфильмы» или «Новый год». Это не что-то уникальное: с самыми известными стилями русских народных промыслов и художников знакомы и англоязычные приложения.

По большей части стили работают хорошо, хотя почти всегда нужно несколько попыток. В текстовом запросе можно добавлять стилистику самостоятельно, если ее нет в списке. В этом случае нужно выбрать в меню «Свой стиль».

Можно написать не только что вы хотите видеть на картинке — запрос в поле «Промпт», но и то, чего на ней быть не должно — на вкладке «Негативный промпт». В телеграм-боте GigaChat нет специального поля для негативного промпта, но можно просто перечислить, каких деталей не должно быть на картинке.

1/2
Телеграм-бот GigaChat: пример запроса с негативным промптом и результаты
Телеграм-бот GigaChat: пример запроса с негативным промптом и результаты

В запросах можно использовать эмодзи, но не все нейросеть поймет и воспримет. Например, на момент написания текста Kandinsky в телеграм-боте узнает сердечко 💚, маникюр 💅, цветок 🌺, единорога 🦄, подарок 🎁, клоуна 🤡. Но вместо туалетной бумаги 🧻 генерируется зубная щетка, помада 💄 возвращает изображение накрашенного глаза, а купальник 👙 — мужчину в смокинге.

Картинки на сайте Fusion Brain генерируются в пяти разрешениях: 1:1 (1 024 × 1 024 точек), 2:3 (680 × 1 024), 3:2 (1 024 × 680), 9:16 (576 × 1 024), 16:9 (1 024 × 576).

Корги на мотоцикле в киберпанк⁠-⁠стиле
Корги на мотоцикле в стиле советского мультфильма
Корги на мотоцикле в стиле хохломы
Корги на мотоцикле, портретное фото
Корги на мотоцикле, Kandinsky
Корги на мотоцикле в аниме⁠-⁠стиле

В телеграм-боте предлагают на выбор около 20 стилей: 4K, аниме, акварель, картина маслом, гжель, малевич, мозаика, детский рисунок, 3D-рендер, ар-деко. А также выбор соотношения сторон — квадрат, альбом, портрет.

Можно прописать стиль в тексте запроса, но в таком случае нейросеть хуже понимает, что от нее требуется.

«Боевой енот в стиле хохлома», сгенерированный нейросетью Kandinsky 3.1 на сайте Fusion Brain, в официальном телеграм⁠-⁠боте GigaChat и с помощью бота во «Вконтакте» GigaChat
«Боевой енот в стиле хохлома», сгенерированный нейросетью Kandinsky 3.1 на сайте Fusion Brain, в официальном телеграм⁠-⁠боте GigaChat и с помощью бота во «Вконтакте» GigaChat
«Боевой енот в стиле хохлома», сгенерированный нейросетью Kandinsky 3.1 на сайте Fusion Brain, в официальном телеграм⁠-⁠боте GigaChat и с помощью бота во «Вконтакте» GigaChat

Редактирование уже сгенерированного изображения — интересная функция. На готовой картинке можно воспользоваться инструментом «ластик» и закрасить им часть, которую нужно поменять. А затем снова нажать кнопку «Создать». Загрузка занимает несколько минут, иногда зависает и выдает ошибку. У меня ушло более 20 бесплатных попыток, чтобы поменять человека в красном пальто на улице киберпанковой Москвы. Сгенерированные объекты получаются искаженными в пропорциях.

Из плюсов — нейросеть аккуратно работает с контуром и не трогает остальные части изображения. Инструмент с возможностью выделения объекта вручную доступен только на сайте fusionbrain.ai.

Оригинальная картинка: мужчина в красном пальто в Москве, киберпанк
Вырезанный силуэт
Женщина в красном пальто
Женщина в азиатской одежде — можно прописывать что угодно

В телеграм-боте и боте во «Вконтакте» редактировать сгенерированное изображение можно с помощью текстового запроса. Для этого выберите раздел «Редактировать изображение», загрузите картинку и опишите, как именно нужно отредактировать это изображение. Например, «добавь украшения», «убери людей на заднем плане», «раскрась фото».

Я сгенерировал серого кота в голубом свитере, лежащего на спине, а затем загрузил это изображение для редактирования. Попросил нейросеть перекрасить свитер в розовый цвет с белыми снежинками — модель в целом справилась, правда, снежки превратились в странное месиво.

Дорисовка — инструмент, который есть во многих генераторах картинок, включая GigaChat. Работает это так: вы генерируете или загружаете картинку, а затем уменьшаете ее так, чтобы поле генерации было больше изображения. Потом дописываете текстовый запрос или выбираете стиль, после чего нейросеть будто дорисовывает картинку. Такая возможность есть только на fusionbrain.ai, в ботах ее нет.

Я пытался сгенерировать Бэтмена в киберпанк-стиле, но дорисовка так и не сработала: три попытки с получасовым ожиданием просто зависли. Если дело было в авторских правах, сервис об этом никак не сообщил.

Фильтры — доступны только в ботах GigaChat. Нужно загрузить портретную фотографию в анфас и выбрать один из стилей — утро русалки, красна девица, глянцевый гламур, сказочный рыцарь и так далее.

Нейросеть создает новое изображение, где сохраняется внешность, но применяется выбранный стиль: полностью меняются одежда, фон, атмосфера и художественная обработка. Это отличается от простого стиля, который лишь меняет цвета и текстуры.

Брэд Питт с применением фильтра «Великий Гэтсби»
Брэд Питт с применением фильтра «Великий Гэтсби»

Как генерировать видео в Kandinsky

В октябре 2023 года Сбер объявил, что теперь Kandinsky позволяет создавать короткие анимационные ролики. Их нельзя назвать полноценными видео, скорее четырехсекундными гифками, которые можно склеить между собой. До реализма качество генераций недотягивает.

Ожидать качества уровня Sora или Veo 3 не стоит. Сервис генерирует только шестисекундные ролики без звука. Разрешение — 512 пикселей. Генерация видео доступна бесплатно в телеграм-боте GigaChat и платно на сайте Fusion Brain.

Вот как создать видео в боте:

  1. Выберите пункт «Оживить картинку».
  2. Загрузите изображение или укажите ориентацию, если генерируете только по текстовому запросу.
  3. Напишите текстовый запрос, указав сюжет, детали и стиль. Не пропускайте шаг, даже если просто хотите оживить картинку.
  4. Выберите один из десяти эффектов анимации, который задает движение камеры: поворот объекта, облет, отдаление или приближение.

Процесс генерации занимает около четырех минут. Окно с загрузкой можно закрыть: готовый ролик автоматически отправится в чат.

Я загрузил сгенерированную в том же Kandinsky картинку кота в свитере и попросил нейросеть, чтобы кот пошевелился. Результат оказался странным. Кот подергался и нереалистично облизнулся огромным языком. Еще стало очевидно, что животному не хватает четвертой лапы.

Получился ИИ-слоп
Получился ИИ-слоп

Вайб моделей прошлого поколения заметен во всех генерациях, но особенно — в роликах с людьми: черты лица могут плыть, а конечности — принимать неестественные положения. В других сюжетах тоже встречаются артефакты: то меняются мелкие детали, то движения становятся слишком плавными, то происходит что-то неестественное.

Но по сравнению с первой версией Kandinsky Video, где попадались откровенно пугающие искажения вроде лишних пальцев, ошибки стали менее заметными и не настолько критичными.

Что в итоге

  1. Kandinsky умеет генерировать картинки и короткие видео. Сервис бесплатный, понимает русский язык и не требует обходов блокировок.
  2. Для сложных задач вроде дорисовки удобнее использовать сайт Fusion Brain, а для быстрых — ботов в соцсетях и мессенджерах.
  3. Качество картинок пока уступает нейросетям вроде Midjourney или ChatGPT. Модель слабо справляется с реализмом, но зато в иллюстрациях и стилизации работает предсказуемо.
  4. Генерация видео тоже сырая. Ролики короткие и без звука. Встречаются артефакты предыдущего поколения моделей — плывущие лица, нестабильные мелкие детали, слишком плавные или неестественные движения.
  5. Чтобы повысить качество, важно точно формулировать промпт: описывать сюжет кратко и однозначно, избегать противоречивых деталей, задавать стиль, пользоваться фильтрами.

Генерировали картинки в нейросетях? Поделитесь своими результатами и расскажите, какой запрос использовали

Евгений КузьминУже попробовали нейросеть? Делитесь своими работами:
  • Иван Драго"Красивая девушка в синем платье", конечно атас. В обоих вариантах...16
  • Пухоспинка Царственнаяс разъяренного хомяка-грузовика в голосину просто11
  • Оранжевый ЛисИван, да там и мужчина у сбера не айс)))0
  • SookaЭто DALL-E 🙄2
  • Алекс ИвановБитва фрегатов 19 века, абордаж, выстрелы киберпанк8
  • Иришка МаликоваПодскажите пожалуйста, можно ли сгенерированные изображения или их фрагменты использовать в коммерческих целях?3
  • ХьёрфиПо стилю действительно очень похоже на миджорни, что радует, поскольку мне она нравилась, но сейчас бесплатное тестирование закрыли. Качество чуть хуже, но не критично.7
  • ХьёрфиХьёрфи, Тот же персонаж в миджорни, сходство стиля очевидно3
  • Владимир Пустовалов4
  • Елена КрюковаОранжевый, ну, я бы так не сказала8
  • Николай ЕрмаковПробовал кандинского и шедеврум. Кандинский на голову выше в реалистичных фотогрфиях Но у шедеврума быаают получше абстракции. И та и другая сети не знают, как выглядят простые бытовые вещи. Кандинский по запросу "землянка" нарисовал червяка.4
  • Николай ЕрмаковПродолжу. Обе сети не знают как выглядит примус. Лодка-долбленка для них оказалась нерешаемой задачей. У Кандинского огромное преимущество над шедеврумом в том, что можно изображать реальных людей, хотя качество изображения иногда оставляет желать лучшего. В данном случае внизу изображение по запросу Певица Анна Седокова. На прототип совсем не похоже.2
  • Николай Ермаков2
  • Victor MonАртем, своё?8
  • G mystephenyотважный кот в космосе :D3
  • G mystephenyкактус улыбается11
  • G mystepheny"нейросеть, ты бездарь"6
  • Андрей Снетков2
  • Algis BelskovКандинскому до Midjourney пока, как до Пекина раком. Проблемы с руками и другими конечностями, с оружием, с материалами, из которых сделаны предметы, реально существующими зданиями (прямо в этой статье разница изображения Красных площадей налицо) и т.д. - в Midjourney всё это уже решено. И да, более корректно "русский" Кандинский работает с запросами на английском, а в некоторых случаях, вообще может визуализировтаь задуманное только если оно описано с учетом особенностей английского языка, - с чего бы это?11
  • Александр П3
  • Александр МаксимовичЕвгений, мне лично Kandinsky 2.1Kandinsky 2.1 очень понравился.2
  • Александр Максимович1
  • Stepan KsenofontovAndre, разберутся2
  • кошка смотрю в окошко"Красивая, грустная девушка сидит в Москве на скамейке, в руке у нее зонт, на улице идёт проливной дождь, на коленках у нее сидит кот, которого она гладит сквозь слезы" Зонт левитирует, слезы тоже где-то потерялись, да и кота мы почему-то не гладим, не порядок! :)8
  • RENNEкошка, там на фоне ещё человек трехногий что ли28
  • Системный инженерИришка, наверняка. Кто ж на них права предъявит)0
  • Ксения ДемченкоКак по мне, так я под впечатлением)1
  • Elena KuleshovaРассказываю: 1. Нейросеть эта, как Поздняков, борется с феминитивами. И потому, если вы не напишете специально и настойчиво "женщина", то вам нарисуют по умолчанию мужчину. "Волшебник" и "волшебница" - одинаково Гэндальф. 2. Космонавт - это всегда американский, с флагом США на рукаве, даже если "российский". 3. Сетку обучали на англоязычном корпусе. Хотите лучше результат? Пишите по-английски. К слову, именно оттуда растут ноги у п.1. 4. "Фаину Раневскую в роли проститутки" Кандинский не нарисует. И "спектакль в Московском камерном театре про революцию" - тоже. Потому что разврат, насилие и наркоманы мы тут все. 5. Пальцы - отдельная тема. Очень страшная тема. Таких мутантских культяпок я никогда не видела. 6. Поскольку фильтры простые, то вам не удастся нарисовать "платье кровавого цвета", ибо убийство и насилие же, откуда иначе кровь? 7. Если вы попробуете нарисовать Собчак в виде рыбы, скажем, - у вас ничего не получится. Ксюша всегда будет самой собой, потому что на ней стоит защита. 8. ВСЕ персонажи, отрисованные Кандинским - худые. Даже если вы пишете "полный". Можно нарисовать очень полного человека, но промежуточных вариантов нет. Собственно, и со средним возрастом тоже проблема: или молодой человек, или уж сразу 50+. 9. Центровка по умолчанию на крупный кадр, а если вдруг средний, то у него режутся верх и низ.29
  • Сергей НикулинПромт: Красивая, юная, молодая девушка-подросток, неформалка, топлесс, панк, будущее, космическая станция, город, ошейник, полдень, по пояс Стиль: 4к(в телеграм-боте)1
  • Александр Максимович1
  • Александр Максимович4
  • Александр Максимович2
  • Александр Максимович1
  • Александр Максимович6
  • Александр Максимович2
  • АлександрНу вот как-то так)2
  • Позднякова Лора3
  • Позднякова Лора4
  • Кристинакошка, мне кажется, слишком детальный запрос, поэтому он и накосячил. Можно что-то типа "Грустная девушка с котом на лавке под дождем".0
  • Ник ЗавадскиElena, супер2
  • Rodney Mullenкошка, ответочка от ChatGPT (Dalle 3)12
  • Rodney MullenСергей, на фоне Купчино 😀4
  • Антилопа Губерниевапервая проба промт - красивый мужчина в плаще темные волосы карие глаза смотрит вперед реалистично1
  • Антилопа ГуберниеваАнтилопа, а если тоже самое ввести на англ, то вышел какой-то такой чел1
  • Georgy KiskinАлександр, девушка-поросенок?0
  • Ксения ДесятниковаНиколай, по запросу "бенгальские огни" я получила бенгальского тигра в огненных шарах :))))1
  • Ксения1
  • Юлия СоколоваМне нравится Кандинский. Хотя договориться с ним по вопросу битв, боев, драк и сражений, конечно, та еще задача. И частенько вроде вполне приличные запросы приводят к непоказываемым результатам)) Но в целом, на мой вкус, он прекрасен! Вот, например (к "Парадоксу Анны"):1
  • Евгений МесечковElena, а я пять часов убил чтобы мне выдало изображение двухголового великана. Рисует двух людей рядом и всё тут :)0
  • Cvrtis BreachЕлена, КАК у тебя такое лицо получилось? Что там нужно написать?!0