Взлет и падение токенмаксинга: почему компании сначала поощряли использование ИИ сотрудниками, а потом стали ограничивать

Нейросети

29.06.26

Сгенерированное изображение — Лев Переулков / Midjourney

Взлет и падение токенмаксинга: почему компании сначала поощряли использование ИИ сотрудниками, а потом стали ограничивать

Живой разработчик снова выгоднее нейросети

Обсудить

Катя Лебедева

адепт зарплатмаксинга

Страница автора

Внедрение ИИ должно было стать почти бесплатным способом ускорить разработку.

Компании рассчитывали, что нейросети помогут быстрее писать код, искать ошибки, отвечать на технические вопросы и собирать прототипы. Поэтому появился токенмаксинг — разработчиков поощряли пользоваться ИИ как можно больше. Но весьма быстро выяснилось, что это не только экономит время, но и создает новую статью расходов.

Разбираемся, чем обернулась ставка на массовое использование нейросетей.

Почему токены важны при использовании нейросетей

Токен — это часть текста или данных, которую нейросеть читает или генерирует. Это может быть фрагмент слова, кода или файла. Большинство коммерческих ИИ-сервисов считают стоимость именно в токенах — раздельно входящие данные, которые модель получила, и исходящие, которые она сгенерировала. Исходящие обычно стоят дороже.

Как нейросеть разбивает текст на токены. © OpenAI

Когда пользователь пишет нейросети «составь письмо», токенов тратится немного: модель читает короткий запрос и генерирует короткий ответ. На рабочие задачи вроде «проанализируй этот документ» или «найди ошибку в процедуре» нужно больше: модель получает не только сам запрос, но и весь контекст вокруг него — документы, переписку, строки кода.

В итоге токены тратятся на действия, большая часть которых пользователю даже не видна. Считается все: история диалога, прикрепленные файлы, данные из репозитория, если сервис получил к нему доступ, промежуточные запросы и результаты работы. Чем больше контекста нужно модели, тем дороже становится задача.

ИИ-агенты: что умеют нейросети, которые выполняют задачи за человека, и какие уже можно опробовать

Отдельный случай — ИИ-агенты, то есть вполне самостоятельные приложения, которые сами ищут путь к решению поставленной задачи. Они могут читать файлы, вызывать инструменты на компьютере или в облаке, проверять результат, исправлять ошибки и снова отправлять данные модели. Чтобы решить одну задачу пользователя, нужны цепочки из десятков действий, и каждое из них расходует токены.

При этом пользователь не всегда заранее видит, сколько действий понадобится. Агент может уйти в цикл, несколько раз перечитать одни и те же файлы, перезапустить проверку или снова попытаться исправить ошибку. Если не выставлен лимит, итоговая стоимость проекта может стать бесконечно большой.

Например, сотрудник финтех-компании Slash таким образом якобы случайно потратил 80 тысяч долларов на разработку брейнрот-шутера, где надо убивать Тунг Тунг Тунг Сахура и скибиди-туалеты.

Вайбкодинг-игра, на разработку которой потратили десятки тысяч долларов

Как возник токенмаксинг

Сначала высокий расход токенов в корпорациях поощряли и даже превратили в метрику. Чтобы люди начали экспериментировать с нейросетями, в компаниях вводили внутренние рейтинги и дашборды, устраивали неформальные соревнования.

Например, в Meta* появился дашборд Claudeonomics, где отображалось, кто из сотрудников потратил больше всего токенов в Claude. По данным Fortune, за месяц у более чем 85 тысяч сотрудников компании суммарно ушло 60 трлн токенов, а лидер рейтинга потратил 281 млрд токенов. Если считать по публичным тарифам Claude Opus, запросы одного такого пользователя могли стоить компании больше 1,4 млн долларов.

Похожий лидерборд был и в Amazon. KiroRank ранжировал сотрудников по тому, как активно они пользовались ИИ-инструментом. Но рейтинг быстро закрыли: он поощрял людей делать не те задания, которые были важнее для работы, а те, что требовали больше токенов и помогали подняться в таблице. После этого старший вице-президент компании Дэйв Тредвелл попросил коллег не использовать ИИ просто ради факта использования ИИ.

Claude: как пользоваться нейросетью бесплатно и правда ли она лучше ChatGPT

Такой подход стали называть токенмаксингом — когда продуктивность сотрудника измеряется количеством токенов, которые он потратил на генерации в нейросетях. Разработчики сравнивали разные решения, загружали больше контекста, запускали несколько агентов одновременно. Игровые механики корпораций только добавляли азарта и вовлекали.

Сначала токенмаксинг выглядел почти рационально. Чем больше сотрудники экспериментируют, тем выше шанс найти полезные сценарии использования нейросетей. Но потом метрику по количеству потраченных токенов начали считать критерием продуктивности. И тогда сжигание токенов из способа решать рабочие задачи превратилось в самоцель.

Руководители компаний, главные сторонники токенмаксинга, стали признавать, что высокие расходы на ИИ не означают лучших результатов. Но они считали это действенным способом заставить сотрудников быстрее привыкнуть к нейросетям. Партнер Sequoia Capital Соня Хуан формулировала это прямолинейно: «Нам всем надо токенмаксить». По ее логике, часть компаний успеет перестроиться под новую технологию, а часть — нет.

Что не так с токенмаксингом

Проблема в том, что расход токенов стал выглядеть как самостоятельная ценность. Пока нейросетями пользовались точечно, это было не так заметно. Но с учетом масштабов ошибки стали обходиться очень дорого, в том числе из-за отсутствия оптимизации:

мощные и дорогие модели использовали и для простых задач, с которыми справились бы более дешевые;
в запрос загружали слишком много контекста на всякий случай — например, весь документ вместо нужного фрагмента, весь репозиторий вместо конкретного файла, длинную историю переписки вместо краткого резюме;
агентов запускали параллельно, чтобы они предложили разные решения, хотя часть работы при этом дублировалась.

ИИ-агенты: что умеют нейросети, которые выполняют задачи за человека, и какие уже можно опробовать

Особенно дорогими оказались задачи, где ИИ работает не как чат-бот, а как агент. Исследователи показывали, что в программировании такие агенты могут тратить в тысячу раз больше токенов, чем обычный чат. При этом больший расход не всегда давал более точный результат.

Аналитическая компания Jellyfish сопоставила, сколько токенов разработчики потратили в первом квартале 2026 года и сколько изменений в коде довели до результата — то есть провели через проверку и добавили в рабочие проекты. У нижних 20% по расходу токенов на это ушло около 3 $ за квартал, в среднем на 11 пул-реквестов. У верхних 20% — уже 1 822 $ и 23 пул-реквеста. То есть результат вырос примерно вдвое, а расходы — в сотни раз.

Uber предположительно израсходовала годовой бюджет на ИИ за первые четыре месяца 2026 года. Президент компании при этом отмечал, что пока трудно увидеть прямую связь между ростом расходов на Claude Code и тем, что Uber стала выпускать больше полезных функций для пользователей.

Microsoft тоже начала сокращать расходы на сторонние ИИ-инструменты. Компания стала отменять большую часть прямых лицензий Claude Code и переводить сотрудников на собственный Microsoft Copilot.

Самый громкий пример — история про неназванную компанию, которая, по данным Axios, могла потратить 500 млн долларов на Claude за один месяц, потому что не поставила лимиты на использование лицензий для сотрудников.

Из-за высоких расходов от токенмаксинга стали отказываться: когда токены уходят на лишний контекст, параллельных агентов и красивые внутренние метрики, ИИ превращается в новую статью затрат.

Корпорации любят придумывать метрики. © Anthropic / Reddit

Как проблемы корпораций коснулись и пользователей

Сначала стоимость токенов была проблемой корпораций. Обычным пользователям многие ИИ-сервисы давали ощущение почти безлимитного доступа при оплате недорогой подписки. Человек платил примерно 20 $ в месяц и не думал, сколько стоит каждый запрос. Можно было попросить нейросеть переписать письмо десять раз, разобрать длинный документ, проверить код или запустить агента на большую задачу — почти все укладывалось в лимиты по подписке.

Постепенно реальную стоимость работы нейросетей стали перекладывать на пользователей. Лимиты во всех тарифах ужесточили, самые дорогие задачи, вроде генерации видео, ограничили. Часть моделей в популярных подписках заменили более дешевыми. Пара примеров:

в Gemini с подпиской Plus можно создать два коротких видео в день, а картинки по умолчанию генерирует не продвинутая Nano Banana Pro, а более простая Nano Banana 2;
в Claude пятичасовой лимит запросов уходит менее чем за час активного использования даже для текстовых задач;
в ChatGPT после исчерпания лимита по подписке запросы перекидываются на мини-версии моделей, а для Codex и ChatGPT в Excel можно докупать кредиты отдельно;
GitHub Copilot с 1 июня 2026 года перешел на оплату по количеству использованных кредитов — никакого безлимита.

Раньше быстрый вопрос и многочасовая автономная сессия могли стоить для пользователя одинаково, а разницу покрывал сам сервис. Теперь использование мощных моделей стало гораздо дороже.

Что в итоге

Идея токенмаксинга в том, что чем больше токенов тратят сотрудники, тем выше их производительность. Большой расход поощряли как способ быстрее приучить команды пользоваться новыми инструментами.
Но работа нейросетей не бесплатная. Оказалось, что если давать сотрудникам безлимитный доступ к ИИ, они могут прожигать сотни тысяч долларов, не принося измеримой пользы.
Компании отказались от токенмаксинга и начали сокращать расходы на нейросети — вводить жесткие лимиты или отказываться от сторонних ИИ-инструментов.
Одновременно с этим лимиты на использование чат-ботов ужесточились и для рядовых пользователей.

Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult