ИИ-агенты: что умеют нейросети, которые выполняют задачи за человека, и какие уже можно опробовать
Нейросети
233
Сгенерированное изображение — Таня Бронникова / Midjourney

ИИ-агенты: что умеют нейросети, которые выполняют задачи за человека, и какие уже можно опробовать

Разбираемся в тренде развития нейросетей
2
Аватар автора

Autumnal Haze

признает только агентов 007

Страница автора

«ИИ-агенты впечатляют в теории, но ненадежны на практике».

С таким тезисом выступила команда исследователей во главе с бывшим научным сотрудником OpenAI Дэниэлом Кокотайло. ИИ-агенты — это нейросети, которые умеют выполнять действия без прямого вмешательства человека. Если верить прогнозам, однажды они смогут управлять целыми бизнес-процессами. Но пока не всегда справляются даже с капчами. Расскажу, как они работают и что мешает им поумнеть и взять все на себя здесь и сейчас.

Что вообще такое агент искусственного интеллекта

ИИ-агенты способны самостоятельно рассуждать, планировать и выполнять действия за пользователя. Для этого они подключаются к разным базам данных и сервисам — например, к списку сведений о ваших бизнес-клиентах или к приложению для покупки авиабилетов. Человек же включается только на первом этапе — когда ставит задачу.

По сути, агент — не столько инструмент, сколько исполнитель. Он берет на себя управление браузером или компьютером. Представьте, что это турагент. Вы говорите, что хотите поехать в Испанию, а он подбирает для вас направления и даты, а потом бронирует жилье и покупает билеты.

Это ключевое отличие ИИ-агента от ИИ-ассистента. Последний выполняет простые запросы — составляет меню, решает примеры, придумывает идеи. По такому принципу работают чат-боты, например ChatGPT, Claude, Gemini, DeepSeek, и голосовые помощники вроде Siri. Возможности агентов шире.

📋 Агент выполняет многоступенчатые задачи. Ассистенты работают по принципу «запрос — ответ». Они могут найти данные в собственной базе знаний или выйти в интернет и поискать сведения там, но пиццу заказать не смогут.

Агенты же могут взять весь процесс на себя: они сами запустят нужные приложения и выполнят в них необходимые действия — закажут пиццу, забронируют авиабилеты, опубликуют пост в соцсети.

Агент Genspark придумал рецепт блюда из» трески с фисташками и каламанси и сгенерировал видеоролик с домашней готовкой для соцсетей

🤖 Агент действует без вмешательства человека. Вы выбираете, где поужинать, и просите помощи у нейросетей. Ассистент предложит только ресторан. Агент как минимум забронирует столик. Как максимум — проанализирует ваше расписание, чтобы прикинуть, сколько времени уйдет на дорогу до ресторана, а еще выберет альтернативное заведение, если первое закрывается вскоре после вашего прихода.

🧠 У агента может быть собственная инициатива. Агенты не должны просить помощи у человека, если возникнет проблема. В идеале они принимают решение самостоятельно и ориентируются по ситуации.

Так, при высокой степени автоматизации агент может заменить оператора техподдержки: сам категоризирует запрос, найдет ответ, подключившись к внутренним системам, и сам инициирует решение — например, возврат денег.

В этом-то и суть ИИ-агентов: работать так хорошо, что человек не побоится делегировать им даже те процессы, где нужно ориентироваться на месте и принимать незапланированные решения.

Как работают ИИ-агенты

Какие ИИ-агенты уже можно опробовать

Google насчитала свыше 600 применений ИИ-агентов в бизнесе. При этом обычным пользователям доступно не так уж много. Некоторые компании только показывают, на что способны их агенты, но для пользования ничего не выпускают. Кто-то прячет дорогих агентов за платными подписками или выдает доступ только избранным разработчикам. Вот несколько примеров.

Operator от OpenAI. Агент от разработчика ChatGPT умеет открывать разные сайты и выполнять на них действия за пользователей. Использует модель Computer-Using Agent на базе GPT-4o.

Пользователи соцсетей показали, что Operator может собрать продуктовую корзину в Walmart «по самым низким ценам», чтобы приготовить чизкейк, который не нужно печь. Оплату при этом нужно подтверждать вручную.

Агент сам вбивает поисковые запросы на сайте супермаркета и выбирает нужные товары

В другом примере Operator забронировал авиабилет по запросу пользователя — например, из Цюриха в Вену в один конец на пятницу.

Для этого агент перешел на сайт booking.com, выбрал выгодные варианты и запросил подтверждение у пользователя.

Агент пользователя попросил выбрать наиболее подходящий вариант из предложенных и перехватить управление, чтобы ввести личные данные и завершить покупку

Как получить доступ. Operator доступен на сайте ChatGPT в статусе исследовательского превью, но только подписчикам Pro за 200 $⁣ (16 403 ₽)  .

Manus от ManusAI. Manus умеет открывать и читать страницы в браузере, работать в разных вкладках и программах в фоновом режиме, оформлять ответы в виде документов и HTML-сайтов.

В одном из примеров на сайте пользователь попросил агента составить недельную программу поездки в Японию. Он указал даты, город вылета, бюджет и количество путешественников. Отметил, что хочет насладиться достопримечательностями и неочевидными точками притяжения и любит пешие прогулки.

Manus сделал кликабельный сайт с планом на каждый день, размеченными картами, мини-словариком, подсказками по этикету, прогнозом погоды, телефонами для экстренных случаев и валютным курсом.

Кнопки в шапке кликабельные — по ним можно перемещаться к нужным разделам
Кнопки в шапке кликабельные — по ним можно перемещаться к нужным разделам

Как получить доступ. Manus находится на стадии закрытого тестирования. Доступ к нему выдают по приглашениям — нужно подать заявку и указать свои цели. Тем, кому прислали код, потребуется оплатить платные подписки — за 39 $⁣ (3219 ₽) или 199 $⁣ (16 425 ₽) в месяц. Они дают больше кредитов на запросы.

Я запрашивала код еще в марте 2025 года, когда сервис только запустился, но мне его так и не прислали.

Computer Use от Anthropic. Разработчики с доступом к API моделей Claude 3.7 Sonnet и Claude 3.5 Sonnet могут передать нейросети управление компьютером. В этом случае агент сможет выйти за пределы браузера, открывать и использовать файлы и программы на локальном устройстве.

В одном из кейсов от самой компании агент поработал в браузере и заполнил форму, размещенную на частном сервере владельца. В примере в соцсетях Computer Use прочел статью по ссылке, законспектировал ее и отправил пересказ на указанную почту.

В примере от другого пользователя Claude посмотрел видео со строительной площадки, проанализировал соблюдение правил безопасности, делая скриншоты для изучения, и составил таблицу с рекомендациями.

С левой стороны можно понаблюдать за тем, что происходит в «голове» у агента
Агент действует как живой инспектор

Как получить доступ. Протестировать функцию могут разработчики, которые платят за доступ к Claude 3.7 Sonnet через API. Миллион входных токенов обойдется в 3 $⁣ (247 ₽), а выходных — в 15 $⁣ (1238 ₽).

Genspark от MainFunc. Это агент, который работает на базе сразу девяти моделей от сторонних разработчиков, среди которых OpenAI, Anthropic и DeepSeek.

В демо на сайте пользователь прислал агенту ссылку на пятичасовой подкаст с главой Anthropic и попросил сделать презентацию на десять слайдов с классным дизайном, которая поможет быстро уловить основную идею. Тот создал минималистичные слайды с цветовыми акцентами, виджетами и картинками.

Получившуюся презентацию можно скачать в PDF. Источник: genspark.ai
Получившуюся презентацию можно скачать в PDF. Источник: genspark.ai

Как получить доступ. Пользователям бесплатного плана дают 200 кредитов в день, но этого может не хватить даже на небольшой примитивный запрос. Например, я попросила составить план на семь дней в Лондоне и отметить достопримечательности и кафе на карте, но агент остановился на полпути и сказал, что я исчерпала контекстное окно. Кредитов осталось меньше 60. Подписка стоит от 20 $⁣ (1651 ₽) в месяц.

AutoGLM от Zhipu AI. Китайский агент работает на основе собственных моделей стартапа, включая «рассуждающую» GLM-Z1-Air. Как и аналоги, он умеет переходить по ссылкам в интернете, планировать поездки, составлять отчеты.

В одном из примеров пользователь взял (сайт недоступен из РФ) тот же запрос про путешествие в Японию, который выше дали Manus. На подготовку турпрограммы у агента ушло 18 минут.

Пользователь комментирует примеры использования. Сами они на китайском, но говорит он на английском. Если не знаете ни того ни другого, можно просто последить за тем, как агент собирает информацию по интернету

Как получить доступ. Агент бесплатный, работает в виде расширения Google Chrome. Но есть нюанс: он доступен только на китайском, а для работы с ним нужен китайский номер.

Browser Operator от Opera. По словам разработчиков (сайт недоступен из РФ), встроенный в браузер Opera агент возьмет на себя заказ продуктов для нужного к ужину блюда, покупку носков, бронь отпуска. Если что-то пойдет не так или вы передумаете, управление можно перехватить в любой момент.

Как получить доступ. Пока никак: функцию только анонсировали.

В этом примере Browser Operator заказывает носки. Сначала он ищет нужные через Google. Затем открывает подходящие карточки на маркетплейсе Amazon, выбирает одни и добавляет их в корзину. Источник: blogs.opera.com
В этом примере Browser Operator заказывает носки. Сначала он ищет нужные через Google. Затем открывает подходящие карточки на маркетплейсе Amazon, выбирает одни и добавляет их в корзину. Источник: blogs.opera.com

Какие недостатки у ИИ-агентов

Возможность делегировать большинство рутинных задач ИИ-агенту звучит заманчиво, но до полной агентизации пока далеко. На то немало причин.

🔮 Агенты ошибаются и галлюцинируют. Основная причина, почему нейросетям пока нельзя доверить автономное выполнение рутинных задач, — они все еще выдумывают факты и ссылки, теряются в деталях и не видят собственных ошибок.

ИИ-агенты могут забронировать несуществующий ресторан или купить кроссовки не того размера без возможности возврата. Страшно представить, что может сделать алгоритм, если задачи будут в несколько раз сложнее.

😰 Агентам трудно в неизвестных условиях. Нужные агенту приложения и сайты могут сбоить. Как и инфраструктура, на которой он работает. Гарантий, что агент справится с задачей в условиях сбоя или какой-то другой сложности, нет.

Попросите его забронировать столик в ресторане в пешей доступности, а он зависнет на полчаса, потому что не сможет достучаться до системы бронирования, и сбросит запрос.

Manus сообщил о критической ошибке, из-за которой не смог выполнить запрос. Теперь пользователь вынужден начинать заново. Источник: techcrunch.com
Manus сообщил о критической ошибке, из-за которой не смог выполнить запрос. Теперь пользователь вынужден начинать заново. Источник: techcrunch.com

🧩 Агенты не застрахованы от предвзятости. Они ориентируются на правила, заданные разработчиками. А те могут отталкиваться как от своих субъективных убеждений, так и от коммерческих интересов компании, в которой работают. Компании обычно не раскрывают такую информацию.

Допустим, вы попросите сгенерировать открытки на 8 Марта и разослать их женщинам, а он нарисует всех в откровенных нарядах, потому что на таких картинках его обучали. Придется потом объясняться.

⚡ Агенты требуют много ресурсов. Чтобы обучать и запускать языковые модели, нужно много вычислительных мощностей — в частности, специализированных ИИ-чипов. А каждый шаг агента — это запрос к стороннему сервису или сайту, который стоит денег.

И чем сложнее устроен агент, тем дороже его поддерживать. Особенно если модели под капотом мультимодальные, обладают памятью и самостоятельно дообучаются на основе обратной связи.

Технокорпорации тратят на развитие инфраструктуры и самих ИИ-продуктов миллиарды долларов. Дороговизна разработки и поддержки объясняет, почему до сих пор нет бесплатных или хотя бы дешевых ИИ-агентов под разные задачи.

📏 Агентам нужна стандартизация. Модели разных разработчиков работают на основе разных принципов. То же касается сторонних сервисов, к которым им нужно подключаться. Скажем, анализировать треды в Slack или доски с задачами в Jira.

Лидеры ИИ-разработки это осознают и начинают выпускать протоколы совместимости. Например, у Anthropic есть Model Context Protocol: он позволяет бесшовно подключать ИИ-ботов к различным приложениям и базам на компьютере и в интернете. У Google теперь есть протокол Agent2Agent, чтобы агенты могли доставать данные из корпоративных систем, например в Atlassian и Salesforce, и сообщаться между собой.

Но это только начало пути. Универсальных агентов, которые смогут работать с абсолютно любым сервисом даже в одной нише, нет. Например, пока недостаточно назвать марку, модель и размер кроссовок, чтобы агент сам оформил покупку в любом доступном интернет-магазине по наиболее выгодной цене.

🔬 Агенты требуют более совершенных ИИ-моделей. ИИ-агенты, как правило, заточены под конкретные задачи, поэтому языковые модели должны поддаваться донастройке, понимать и удерживать длинный контекст и уметь «рассуждать».

Долгосрочной памяти у агентов пока нет. «Размышлять» умеют не все. А агенту при этом нужно помнить, что он уже сделал, что еще нужно, что сработало, а что нет — и какой вообще был запрос.

В исследовательской Macquarie US Equity Research считают, что пока ни одна большая общедоступная языковая модель не может справиться с по-настоящему агентскими задачами — такими, чтобы их работа впечатляла.

Заменят ли ИИ-агенты человека

По данным аналитиков Deloitte, к 2027 году половина компаний, которые уже используют нейросети, будет работать с ИИ-агентами. Часть мелких повторяющихся задач они и правда могут забрать на себя. Скажем, подбор жилья под запрос, написание шаблонного кода, первичный анализ финансовых данных, SEO-оптимизацию.

В IBM считают, что агенты будут скорее компаньонами человека, чем его заменой. Если текущие ограничения и проблемы минимизируют, вот что предполагают ИИ-специалисты.

🧘 Агенты освободят время. Избавившись от рутины, человек сможет посвятить больше времени творческим и мыслительным задачам. Учитель может отдать агенту подготовку и проверку контрольных и в освободившиеся часы поделать презентации, чтобы увлечь студентов. Менеджер, делегировав агенту заполнение еженедельных отчетов, может чаще общаться с командой — или уделить больше внимания долгосрочному планированию.

Иными словами, ИИ-агенты позволят повысить продуктивность тем, кто любит работать, и найти время на себя тем, кто устал от однообразной возни.

🤖 У желающего появится личный помощник. Например, дизайнер сможет с помощью агента искать по всему интернету подходящие предметы интерьера по фотографиям и автоматически их покупать. А заядлый путешественник научит агента планировать идеальные поездки. Тот будет знать, любит ли он музеи, какую кухню предпочитает, важны ли звездность отеля и время вылета.

👨‍🏫 Человек будет учителем агента. Обучать нужно и модели, которые ложатся в основу агентов, и самих агентов. А еще за ними придется следить. Так что здесь точно пригодится навык работы с нейросетями, чтобы идти в ногу со временем.

Возможно, однажды агенты и правда смогут выполнять задачи, находящиеся за гранью человеческого понимания, как полагают исследователи. Но когда это произойдет, никто точно не знает.

Что в итоге

  1. ИИ-агенты — новая парадигма в развитии нейросетей. Пока чат-боты только отвечают на вопросы и агрегируют информацию из разных источников, агенты выполняют за нас действия в компьютере и интернете — кликают на нужные кнопки, заполняют данные, выбирают варианты под наш узкий запрос.
  2. Агент может оформить покупку, сделать бронь, превратить несколько часов болтовни в презентацию, собрать продуктовую корзину и полностью спланировать поездку в виде кликабельной шпаргалки — с картами, экстренными номерами и замечаниями по местному этикету.
  3. По задумке агенты должны полностью автоматизировать процессы, за которые берутся. Но пока получается не всегда. Например, покупки и брони чаще всего нужно подтверждать вручную. Хотя на данном этапе это даже плюс, потому что нейросети все еще могут ошибаться и галлюцинировать. Полностью довериться им трудно.
  4. Агентов для массовой аудитории пока мало. А те, что есть, в основном платные или доступны с ограничениями — например, только разработчикам.
  5. Исследователи верят, что за ИИ-агентами будущее отрасли, но о повсеместном внедрении говорить рано. Для обучения агентов нужно больше данных. Чтобы они реже ошибались, требуются более умные модели и, возможно, сразу несколько. А еще в отрасли не хватает стандартизации — чтобы любые агенты могли подключаться к любым приложениям.

Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult

Autumnal HazeКак считаете, какого полезного ИИ⁠-⁠агента стоит создать?
  • Надя ШушурихинаПрикольно было бы как юриста использовать, идеальная энциклопедия которая реально знает все законы со всех сторон применительно к твоей ситуации. Но пока нет.0
  • Анастасия ХаритоноваВот не надо, что агенты заменят SEO. Рутинные задачи им можно делегировать, но никак не стратегические. И то не всю рутину.0