Я доверила ИИ-⁠агенту ChatGPT простые задачи. Кажется, лучше бы я все делала сама

Нейросети

06.08.25

Сгенерированное изображение — Таня Бронникова / Midjourney

Я доверила ИИ-⁠агенту ChatGPT простые задачи. Кажется, лучше бы я все делала сама

Нейросеть записывала меня на йогу и заказывала пиццу — получилось ли у нее?

Даша Лейзаренко

поела пиццу

Страница автора

ИИ-агенты умеют выполнять задачи в интернете вместо человека.

По заверениям разработчиков, они помогают как в работе, так и в быту. Ключевое преимущество агентов — они способны совершать действия. То есть не просто показать рестораны рядом и прикинуть текст сообщения коллеге, а забронировать столик и отправить письмо.

Недавно OpenAI представила своего агента — ChatGPT Agent. Я проверила, сделает ли он мою жизнь проще.

УЧЕБНИК Т—Ж

Как нейросети могут изменить жизнь

От рецепта ужина до изучения языков — собрали десятки рабочих и бытовых сценариев в бесплатном курсе

Открыть курс

Что может агент ChatGPT и как работает

ИИ-агенты — это автономные нейросети, которые способны совершать действия без участия пользователя. По задумке, они должны снять часть рутины с человека. В идеале это работает так: вы говорите, чего хотите, например поехать в Португалию, а агент сам составляет маршрут, бронирует отели, покупает билеты. На деле у технологии есть ограничения, но об этом позже.

В июле OpenAI представила своего агента — ChatGPT Agent. Чтобы им воспользоваться, достаточно в чате включить режим через меню инструментов или вызвать командой /agent. Агент доступен с любым уровнем платной подписки, начиная от 20 $⁣ (1639 ₽) в месяц.

ИИ-агенты: что умеют нейросети, которые выполняют задачи за человека, и какие уже можно опробовать

Вот как работает агент:

Вы ставите задачу, агент задает уточняющие вопросы.
Агент запускает виртуальную машину — это его рабочее пространство со своим браузером, где он выполняет разные действия. В основном переходит по сайтам и нажимает кнопки. За действиями нейросети можно наблюдать в реальном времени — они транслируются внутри чата. В любой момент вы можете взять контроль на себя, но с задачами без чувствительных данных агент работает самостоятельно.
Агент передает контроль за браузером вам, когда нужно указать данные, подтвердить бронирование или совершить другое важное действие. В таком случае вы открываете его внутренний браузер. В это время ChatGPT не записывает действия, чтобы OpenAI не получала связки «логин-пароль» или данные банковских карт.
Агент завершает работу и представляет отчет. После завершения обработки можно посмотреть видео со всеми действиями, которые выполнила нейросеть, а также детальный текстовый таймлайн с объяснением логики каждого шага, выполненных команд и операций с файлами.

Я протестировала ChatGPT Agent на серии бытовых задач — причем намеренно выбрала сценарии попроще. В каждом эксперименте я фиксировала, сколько времени потратила нейросеть и сколько на аналогичную задачу потребовалось бы мне самой.

Так работает агент в своем виртуальном пространстве

Тест на легкие задачи

Сначала я проверила ChatGPT на простых задачах — сделать одно действие в интернете или создать файл.

📅 Запланировать событие в календаре. Казалось бы, это самое простое, что можно доверить нейросети.

Но проблема в том, что агент ChatGPT не берет под управление Макбук, чтобы открыть приложения календаря. Он открывает сервис через свой внутренний браузер, где еще нужно авторизоваться. Так что пришлось забирать управление и логиниться в iCloud внутри виртуальной машины. Напомню: вводить пароли и данные банковских карт или нет — зависит от того, насколько вы доверяете разработчикам.

Если вы входите в какой-либо свой аккаунт, нейросеть считает, что работает с конфиденциальными данными. Тогда ChatGPT требует постоянно следить за его действиями. В противном случае он просто прекращает процесс. Это убивает всю автоматизацию — зачем сидеть и смотреть, как он добавляет событие в календарь, если я могу сделать это быстрее сама?

ChatGPT создал событие «поход к врачу» в календаре на указанные мной время и дату. Перед совершением действия он еще раз переспросил, можно ли ему это сделать. Я подтвердила. Правда, агент поставил встречу на 09:00 по GMT — по моему часовому поясу это вечер, хотя я просила найти окошко на утро. Толку от перекладывания такой простой задачи на нейросеть мало: слишком много контроля и правок.

Это событие добавил агент. Жаль, что не туда, куда надо

Планирование события

Справился ли	🤷
Сколько ушло времени	3 минуты + 2 минуты, которые я потратила на авторизацию
Сколько времени ушло бы у меня	1 минута

Планирование события

Справился ли	🤷
Сколько ушло времени	3 минуты + 2 минуты, которые я потратила на авторизацию
Сколько времени ушло бы у меня	1 минута

📊 Заполнить табличку. Я попросила сделать таблицу для ведения ежемесячного бюджета в Google Sheets. Нейросеть предложила войти в гугл-аккаунт, но авторизация не удалась: сервис определил браузер ChatGPT как небезопасный и полностью заблокировал попытку входа.

Получается, автоматизировать задачи через агента в сервисах Google не выйдет.

Тогда я попросила создать аналогичную таблицу в Excel. За 30 секунд агент сгенерировал простейшую таблицу, которую можно было скачать. Правда, почему-то она была на английском языке.

Нейросеть выполнила требования промпта — внесла простые формулы для подсчета сбережений и расчета остатка после обязательных трат. Затем я попросила агента заполнить таблицу выдуманными тратами в условных единицах. С этим он справился.

Табличка с простыми формулами

Заполнение таблицы

Справился ли	🤷
Сколько ушло времени	2 минуты
Сколько времени ушло бы у меня	20 минут

Заполнение таблицы

Справился ли	🤷
Сколько ушло времени	2 минуты
Сколько времени ушло бы у меня	20 минут

🚶‍♀️ Составить маршрут для «Яндекс Карт». Я попросила нейросеть сделать интерактивный маршрут по Петербургу от метро «Площадь Александра Невского» до «Чернышевской», чтобы он проходил через максимальное количество зеленых зон. В городе парков не так много, поэтому я рассчитывала, что агент проложит путь через все доступные скверы и сады.

Чтобы составить маршрут, нейросеть изучила 101 источник, причем зачем-то заходила даже на сайты американского города Санкт-Петербург. Через 11 минут ChatGPT выдал полуторачасовой маршрут с четырьмя точками, который можно было открыть в «Яндекс Картах». К маршруту прилагалось описание локаций.

Маршрут, который составила нейросеть

В целом агент справился. Нейросеть предложила пройтись по базовым достопримечательностям: Смольному собору, Таврическому саду, а потом выйти к «Чернышевской». Не понравилось, что ChatGPT предложил идти по Синопской набережной, аргументируя это тем, что она «тянется вдоль воды и там есть зеленые участки».

Технически путь идет вдоль Невы, но на деле там шумная трасса и не обустроенная набережная, а зеленых зон до самого Смольного нет. Гулять там неприятно. Я бы пошла по Смольному проспекту и Советским улицам — там хотя бы красивая архитектура, а в округе есть несколько маленьких скверов.

Составление маршрута

Справился ли	🤷
Сколько ушло времени	11 минут
Сколько времени ушло бы у меня	5 минут (30 минут, если бы я не была знакома с городом)

Составление маршрута

Справился ли	🤷
Сколько ушло времени	11 минут
Сколько времени ушло бы у меня	5 минут (30 минут, если бы я не была знакома с городом)

✈️ Найти билеты на самолет. Я попросила найти самые дешевые билеты из Санкт-Петербурга в Тбилиси на неделе с 22 по 28 сентября. За 19 минут нейросеть определила, что выгоднее всего лететь авиакомпанией Red Wings 22 или 23 сентября. Перепроверив информацию на «Авиасейлс», я убедилась, что агент прав. Рейсы в следующие дни стоили дороже.

Но в ответе было несколько ошибок. Нейросеть утверждала, что в Тбилиси летают две авиакомпании, хотя на самом деле три. А еще она говорила, что дневной рейс выполняется как 22, так и 23 сентября, тогда как на деле дневной был только 22 сентября, а 23 сентября — уже ночной. Такие ошибки кажутся незначительными, но когда они накапливаются, они вполне могут ввести в заблуждение и заставить проводить весь ресерч заново.

Когда я попросила дать ссылку для покупки билета, агент отправил общие ссылки на «Авиасейлс» и сайт Red Wings, просто на маршрут Санкт-Петербург — Тбилиси, а не на конкретные даты и рейсы. Поэтому искать билеты мне бы пришлось заново. Ничего автоматизировать снова не удалась. А ведь я даже не просила купить мне этот билет.

Поиск билетов

Справился ли	🤷
Сколько ушло времени	18 минут
Сколько времени ушло бы у меня	10 минут

Поиск билетов

Справился ли	🤷
Сколько ушло времени	18 минут
Сколько времени ушло бы у меня	10 минут

Тест на истинно агентские задачи

Это многоступенчатые задачи, которые требуют собственной инициативы нейросети, чтобы она выбрала лучший вариант по заданным условиям и совершила полезное действие. Тут агенту было сложнее всего.

🎟️ Купить билеты в кино. Мне нужны были два билета на «Фантастическую четверку» в пятницу вечером. За четыре минуты нейросеть нашла несколько вариантов в разных кинотеатрах города. Я согласилась на сеанс в местном торговом центре на 21:30.

Поразительно было наблюдать, как ChatGPT перемещается по сайту и размышляет над каждым действием. То, что у человека занимает долю секунды, у нейросети может растянуться на минуты. Она буквально проговаривает свои шаги: «Так, кажется, я открыл сеанс на 19:00, а нужен на 21:30. Попробую перейти на другой сеанс. Куда же нажать? Наверное, сюда». Забавно, что капчу, призванную защищать интернет от роботов, он проходит без каких-либо затруднений.

Бесплатный курс Учебника Т⁠—⁠Ж «Как упростить жизнь с помощью нейросетей»

На выбор мест у нейросети ушло девять минут. Но предложенные мне не понравились, и я попросила выбрать другие, назвав конкретный ряд и номера. Не подозревала, что это станет гвоздем в крышку гроба.

ChatGPT никак не мог выбрать нужные места. Сначала он нажал на кресла в разных рядах, затем понял, что это как-то странно, и попытался исправиться. Нейросеть долго кликала по уже занятым местам, пыталась нажать на пустые участки схемы зала, приближала изображение кресел, теряла из виду нумерацию сидений, пыталась высчитать расположение мест относительно других и в итоге сбивалась.

Агент выбирает места в кинотеатре 10 часов подряд

Это превратилось в бесконечный цикл: нейросеть выбирала места на разных рядах, понимала свою ошибку и начинала заново. В конце концов нейросеть признала поражение и передала управление мне. Я выбрала понравившиеся места и вернула контроль ИИ. ChatGPT перешел к оформлению покупки и попросил мой номер телефона и электронную почту.

Тут и вскрылась проблема: на сайте кинотеатра места бронируются на восемь минут, после чего сессия автоматически сбрасывается. Учитывая, как долго нейросеть кликала по иконкам кресел, в этот лимит она, конечно, не уложилась.

Поэтому нейросеть начала весь процесс заново — снова зашла на сайт, открыла нужный сеанс и опять принялась мучительно долго выбирать указанные мной места. Несколько раз она вообще закрывала сайт, переходила на другой, но снова возвращалась. Спустя два часа безуспешных попыток запрос завершился ошибкой.

Все время я была во фрустрации. Боялась, что места, которые мне понравились, купит кто-то другой, пока ChatGPT пытается понять элементарную логику выбора двух соседних кресел.

Покупка билетов в кино

Справился ли	❌
Сколько ушло времени	2,5 часа
Сколько времени ушло бы у меня	5 минут

Покупка билетов в кино

Справился ли	❌
Сколько ушло времени	2,5 часа
Сколько времени ушло бы у меня	5 минут

🧘‍♀️ Записать на занятие по йоге. Следующая задача — найти студию йоги в радиусе трех километров от дома и записать меня на утреннее занятие. После провала с покупкой билетов в кино особых надежд у меня не было.

За восемь минут нейросеть нашла студию в другом районе. Я объяснила, что это слишком далеко. ChatGPT попытался снова, но предложил занятия еще дальше от моего дома. Начало немного раздражать, тем более что я прекрасно знала — вокруг меня много йога-студий, я вижу их каждый день, когда гуляю по району.

Несколько раз нейросеть заходила в «Фейсбук»* и «Инстаграм»*, поскольку местные студии наиболее активны в соцсетях. Тут снова возникла сложность: при работе с ними система требовала постоянного контроля с моей стороны из-за политики конфиденциальности, хотя я не входила в свои аккаунты. В таких случаях надо смотреть, как ChatGPT пользуется браузером.

После долгих переговоров со мной ChatGPT наконец нашел студию рядом — буквально в 500 метрах от дома. С высокими рейтингами, утренними занятиями и умеренными ценами. Я даже про нее не знала, хорошая находка.

Когда я попросила забронировать место, нейросеть отказалась работать с сайтом студии. Я убедилась, что у нее есть сайт с довольно простой системой бронирования — нужно выбрать занятие, указать свои данные, и тебя записывают. Но ChatGPT не смог с ним работать, сославшись на то, что «сайт, обслуживающий онлайн-запись, оказался заблокирован в рабочем окружении».

Запись на йогу

Справился ли	❌
Сколько ушло времени	55 минут
Сколько времени ушло бы у меня	20 минут

Запись на йогу

Справился ли	❌
Сколько ушло времени	55 минут
Сколько времени ушло бы у меня	20 минут

🍽️ Забронировать столик в ресторане. Надежды на агентские возможности окончательно иссякли. Я знала, что ресторан, который мне нравится, принимает брони только по телефону или через «Инстаграм»*. Но после поиска йога-студии я выяснила, что нейросеть в принципе может пользоваться соцсетями.

Задача была простой: забронировать столик на 21:00 на двоих на тот же день. Нейросеть быстро нашла сайт ресторана, но почему-то прервалась и потребовала меня посмотреть, что она делает. Она не попыталась позвонить в ресторан — не уверена, что он так может, но было бы хорошо — или зайти в «Инстаграм»*, что, как мы выяснили ранее, она умеет делать.

Вместо этого нейросеть просто порекомендовала мне сделать все самой. В качестве помощи предложила составить текст сообщения в ресторан. Очень полезно. Фактически нейросеть переложила выполнение задачи обратно на меня, ограничившись лишь поиском контактной информации, которая и так у меня была.

Бронь столика

Справился ли	❌
Сколько ушло времени	5 минут
Сколько времени ушло бы у меня	2 минуты

Бронь столика

Справился ли	❌
Сколько ушло времени	5 минут
Сколько времени ушло бы у меня	2 минуты

🍕 Заказать пиццу. Финальное задание — найти в местном сервисе доставки ресторан с высоким рейтингом и заказать пиццу с грушей и горгонзолой. Тут нейросеть впервые не подвела. Удивительно, но она нашла мою любимую ближайшую пиццерию с рейтингом 9,8 из 10 и выбрала нужный вкус пиццы.

Как и раньше, пришлось войти в свой аккаунт — на этот раз в Wolt. Нейросеть добавила пиццу в корзину и попросила подтвердить выбор. Я ответила в чате «Да» — и наконец агент выполнил задачу целиком. Заказал пиццу! Я не могла поверить, что хоть что-то у нас получилось.

Награда за страдания

Уже позже выяснилось, что при оформлении заказа нейросеть без спроса сменила способ оплаты — выбрала карту моего парня, хотя по умолчанию стояла моя. Вторая карта давно была привязана к аккаунту, уже не помню зачем, но я никогда ей не пользовалась и вообще забыла об этом. При подтверждении заказа я не обратила внимания на способ оплаты — узнала только потом, когда пересматривала записи действий агента.

Парень успел запаниковать, заблокировать карту, написать в службу поддержки Wolt, пока не спросил у меня, не я ли это. Мне самой потребовалось несколько минут, чтобы понять, что происходит.

Заказ доставки еды

Справился ли	✅
Сколько ушло времени	6 минут
Сколько времени ушло бы у меня	3 минуты

Заказ доставки еды

Справился ли	✅
Сколько ушло времени	6 минут
Сколько времени ушло бы у меня	3 минуты

Общие впечатления от агента

Из восьми задач агент полностью справился только с одной — заказом пиццы, и то со странностью в способе оплаты. Частично выполнил еще несколько: нашел авиабилеты, но с неточностями, составил маршрут, но сомнительный, создал таблицу, но низкого качества.

Главный вывод: агент катастрофически медленный

Он часто зацикливается — совершает одни и те же ошибочные действия бессчетное количество раз, не понимая, что же он делает не так. Из-за этого задачи, на которые у меня ушло бы пять минут, у нейросети занимали по полчаса, а то и больше, и часто заканчивались ничем.

Почему нейросети галлюцинируют и как решить эту проблему?

Многие сайты агент по разным причинам открыть не может. Требование постоянно следить за его действиями при работе с чувствительной информацией убивает всю идею автоматизации. Постоянные вопросы нейросети тоже отвлекают на себя лишнее внимание.

Технология впечатляет концептуально, но практически бесполезна сейчас. Пока что агент создает больше проблем, чем решает.

Это самый ранний этап развития агентов. Они действительно могут управлять браузером, но сами нейросети недостаточно развиты, чтобы адекватно и быстро выполнять действия в интернете. Возможно, через несколько лет они станут умнее и не будут залипать по два часа над элементарной задачей. А пока это игрушка для энтузиастов, а не реальный помощник.

Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult

ChatGPT нейросети

Даша ЛейзаренкоНейросеть записывала меня на йогу и заказывала пиццу — получилось ли у нее?

Д.К.Спасибо большое за статью, очень давно хотел почитать user story в разных сценариях.)11
Нехетти ГринНу что, жму руку. Тоже пыталась запрягать ИИ на планировку путешествия (выяснить разные аспекты), так она изолгалась настолько (годы, факты, гео, цифры, названия), что я плюнула и решила всё делать руками. Меньше времени займет, чем ждать очередной порцИИбреда, а потом негодовать, исправляя, и еще новую порцию ждать, исправленного и дополненного. Новым бредом, разумеется))8
SPQRАвтор, спасибо. Хоть одна позитивная статья! От души посмеялась. 😁😁😁 Очень понравилось про оплату пиццы и запись к врачу на 8 вечера. 👍👍👍😁😁😁9
Андрей КузнецовSPQR, я посмеялся на моменте бронирования билетов в кино4
Сергей БочкаревНейросети сложно взаимодействовать с интерфейсами, которые десятилетиями адаптировали под живых людей. Вот когда массово будут разрабатывать что-то типа MCP, то будет сильно проще3
Boris Köln" Возможно, через несколько лет они станут умнее" Или через несколько месяцев. Поэтому лучше быть с ними вежливым, чтобы потом они не отомстили :)2
Иван Драго"ИИ не умеет творить, зато умеет вытворять" (с)1
🐾Очень интересный эксперимент, спасибо!1
НюраИнтересный опыт! Прочитала - поняла, что это не для меня. Заказ пиццы оли планирование путешествия - это же самостоятельный вид искусства, как можно доверять это кому-то другому?:)1
Даша ЛейзаренкоНехетти, для базового планирования путешествий Deep Research, кстати, норм — выбрать достопримечательности и необычные места. у меня вроде даже не галлюцинировал. от такого ресерча легче отталкиваться в своем ресерче, чем с нуля все гуглить. ну и пока перепроверяешь, можно найти галлюцинации0
КрокодилЛюбопытный обзор, спасибо :) Ещё и такой подробный. Я использую помощь просто чата в бытовой жизни и в работе. Помогает примерно в половине случаев или чуть больше, в остальных галлюцинирует. Глаз да глаз за ними :) Ответить0