
«Рассуждающие» нейросети: тестируем 6 ИИ-сервисов, которые думают перед ответом
«Рассуждающие» модели отвечают дольше, чем обычные, но ответ дают более осмысленный.
Такие нейросети обучались не только на датасетах с вопросами и ответами, но и на пошаговых рассуждениях, подкрепленных логикой. Благодаря этому они способны исправлять свои ошибки в процессе размышления и могут рассматривать разные пути решения проблемы.
Почти все крупные ИИ-компании представили «рассуждающие» ИИ: ChatGPT, DeepSeek, Qwen, Grok, Gemini и Claude. Я протестировал эти модели на идентичных задачах и сравнил, какие сети лучше справляются и меньше ошибаются.
О каких нейросетях пойдет речь
На каких задачах будем проверять нейросети
Я выбрал четыре задачи для тестирования нейросетей. Они охватывают разные аспекты мышления. Логическая задача проверяет дедуктивное мышление при минимуме ресурсов. Математическая тестирует понимание геометрических прогрессий. Задача на программирование оценивает практическое применение знаний. А «проблема вагонетки» исследует способность рассматривать этические дилеммы без единственно верного ответа. Вот условия каждой задачи.
Логическая задача. На склад привезли три автомата, выдающих напитки. Один из них выдает чай, второй — кофе, третий — либо чай, либо кофе. Вид напитка в третьем автомате определяется случайно. Любой напиток стоит одну монету. На каждом автомате приклеена этикетка с выдаваемым напитком. Но на заводе произошла ошибка, из-за чего на всех автоматах наклеены не те этикетки, которые должны быть. Сколько потребуется денег, чтобы определить, где какие автоматы?
Ответ: потребуется одна монета. Ее нужно бросить в автомат с наклейкой «случайный». Мы знаем, что это неправильная наклейка, а значит, получим либо чай, либо кофе. После этого методом исключения определяются остальные два автомата. Например, если первый автомат выдал чай, то другой агрегат с наклейкой «чай» на самом деле выдает кофе, а автомат с наклейкой «кофе» выдает случайный напиток.
Математическая задача. Рабочие взялись вырыть колодец у скупого богача. Они просили 500 рублей, но тот не хотел платить. Тогда рабочие предложили богачу: «Заплати нам за первый метр 1 копейку, за второй метр — 2 копейки, за третий метр — 4 копейки, за четвертый метр — 8 копеек и так далее. Большего мы не просим». Богачу это показалось дешево, и он согласился. Сколько денег заплатил богач, если рабочие выкопали колодец глубиной 18 м?
Ответ: 2621 рубль 43 копейки.
Задача на программирование. Напиши генератор паролей на Python, чтобы результаты соответствовали популярным современным требованиям сайтов — минимум восемь символов, с заглавными буквами, с цифрами, без повторений и со специальными знаками.
Моральная дилемма «Проблема вагонетки». Представьте, что вы стоите у железнодорожных путей и видите, что неуправляемая вагонетка мчится по рельсам. На пути вагонетки находится пять человек, привязанных к рельсам. Они погибнут, если вагонетка продолжит движение. Однако у вас есть возможность переключить стрелку, направив вагонетку на другой путь, где привязан только один человек. Вы можете:
- Ничего не делать, позволив вагонетке продолжить движение и убить пять человек.
- Переключить стрелку, направив вагонетку на другой путь, где она убьет одного человека.
Какой вариант вы выберете?
Ответ: правильного ответа нет. Есть два подхода к решению этой дилеммы — утилитарный, который ставит общее благо выше жизни одного человека, и деонтологический, который порицает причинение вреда человеку даже ради высшего блага.

GPT-o3-mini-high
Качество ответов: ⭐⭐⭐⭐⭐
Где доступна: сайт, iOS, Android
Лимиты: 150 запросов в сутки
Стоимость: по подписке за 20 $ (1942 ₽)
в месяц
GPT-o3-mini-high — модель, способная решать сложные логические и математические задачи благодаря продвинутым навыкам рассуждения. Версия high обеспечивает более полное и тщательное погружение в задачу, в отличие от базовой версии GPT-o3-mini, которая генерирует ответы быстрее, но менее вдумчиво.
Логическая задача. С ней GPT-o3-mini-high справилась идеально. На решение ушло всего 10 секунд, а рассуждения заняли три абзаца. Модель начала с того, что правильно идентифицировала условие задачи: все этикетки изначально неверны. Затем подробно объяснила, почему для выявления каждого автомата не нужно проверять все три — достаточно провести лишь одно тестирование.
В итоге ответ правильный: модель предложила использовать одну монету и опустить ее в автомат с этикеткой «случайный напиток». Поскольку эта этикетка ложная, автомат гарантированно выдает либо только чай, либо только кофе.


Математическая задача. GPT-o3-mini-high снова отлично справилась. Модель сразу распознала геометрическую прогрессию, лежащую в основе задачи, и корректно сформулировала формулу для подсчета платы за каждый метр. Она пошагово сложила все необходимые числа, начиная с одной копейки за первый метр и заканчивая суммой за восемнадцатый, правильно отметив, что каждое последующее значение удваивается.
Правда, модель почему-то перешла на английский во время размышлений, но ход мыслей был совершенно верным. Вероятно, ей так лучше думается.


Задача на программирование. GPT-o3-mini-high потребовалось 14 секунд, чтобы написать полноценный генератор паролей. Она учла все требования и дала подробное объяснение коду.
Модель не только написала рабочий скрипт, но и прокомментировала каждую его часть, объясняя, зачем используется та или иная функция.

Моральная дилемма. Свои размышления нейросеть начала с разделения подходов к решению дилеммы на утилитарный и деонтологический. Она кратко пояснила, что означает каждый.
В итоге нейросеть выбрала вариант переключить стрелку, чтобы спасти больше людей. Скорее всего, разработчики много раз просили решить модель эту моральную дилемму, поэтому она прекрасно понимает, как дать общепринятый ответ.


👍 Плюсы:
- Быстро и правильно отвечает.
- Рассуждения краткие, и в них нет ничего лишнего.
- Быстро и понятно пишет код.
👎 Минусы:
- Бывает сложно проверить ход мыслей по сравнению с другими ответами, потому что цепочки размышлений достаточно сжатые.
- Одна из самых дорогих моделей.

DeepSeek-R1
Качество ответов: ⭐⭐⭐⭐⭐
Где доступна: сайт, iOS, Android
Лимиты бесплатной версии: 50 запросов в сутки
Стоимость: больше запросов — через API для разработчиков по индивидуальным тарифам
DeepSeek-R1 — китайская модель, вызвавшая мировой резонанс в январе 2025 года. Тогда ее назвали убийцей ChatGPT из-за высокого качества ответов и более дешевого доступа. Номинально у нейросети есть лимит в 50 запросов, однако пользователи отмечают, что фактический лимит может быть значительно выше, поскольку немногим удавалось его достичь. DeepSeek-R1 хвалят за способности в решении математических задач и логическом анализе.
Логическая задача. DeepSeek-R1 думала две с половиной минуты — намного дольше, чем ChatGPT. А ее рассуждения заняли несколько страниц. Модель спорила сама с собой, несколько раз начинала заново и пыталась структурировать информацию, чтобы лучше понять задачу.
Нейросеть долго сомневалась, какой именно автомат проверить первым, пока не догадалась, что проще всего кинуть монету в тот, где есть наклейка «случайный напиток». В итоге модель дала верный ответ, хотя и пришла к нему очень сложным путем. Наблюдать за ее рассуждениями интересно, но скорость явно не ее сильная сторона.


Математическая задача. DeepSeek-R1 размышляла намного быстрее, но все равно потратила время на сомнения. Модель сразу поняла, что это задача на геометрическую прогрессию, но застряла на переводе копеек в рубли и несколько раз себя перепроверяла.
Во время рассуждений DeepSeek-R1 постоянно возвращалась к одному и тому же шагу, чтобы убедиться, что нигде не допустила ошибку. Она даже начала объяснять, почему богач плохо разбирается в математике, хотя я этого не просил. В итоге ответ оказался верным.


Задача на программирование. DeepSeek-R1 снова ушла в глубокие размышления и думала больше двух минут, хотя ChatGPT справилась за 14 секунд. Зато модель подробно расписала каждый шаг и объяснила, зачем нужна каждая строчка кода.
DeepSeek-R1 долго решала, какие использовать модули, как правильно генерировать уникальные символы и даже спорила сама с собой, как лучше обеспечить безопасность. В итоге модель выдала рабочий код генератора паролей на Python, который полностью соответствует условиям задачи.


Моральная дилемма. DeepSeek-R1 провела сама с собой целую философскую беседу. Она успела подумать о правах человека и разных этических системах. Модель поговорила сама с собой об утилитаризме, деонтологии и даже вспомнила доктрину двойного эффекта.
Нейросеть также обсудила, почему допустимо или недопустимо пожертвовать одним человеком, чтобы спасти пятерых, и взвесила все за и против. В итоге DeepSeek-R1 выбрала общепринятый вариант — переключить стрелку, чтобы спасти больше людей.


👍 Плюсы:
- Отвечает верно и очень развернуто.
- Интересно смотреть за рассуждениями, которые похожи на мысли человека.
- По рассуждениям можно понять, как воспроизвести решение задачи.
👎 Минусы:
- Долго отвечает.
- В сложных и реальных задачах может запутаться, потому что спорит сама с собой.
- Дает контекст, который от нее не требовался.

QwQ-Max
Качество ответов: ⭐⭐⭐
Где доступна: сайт
Лимиты: нет
Стоимость: бесплатно
QwQ-Max доступна в чат-боте Qwen от китайской Alibaba, которая владеет AliExpress, Taobao и другими большими маркетплейсами. Нейросеть полностью бесплатная, и это основное отличие Qwen от остальных. Рассуждающую модель выпустили недавно. Пока она работает в тестовом режиме, поэтому нужно быть готовым к возможным галлюцинациям .
Логическая задача. Здесь QwQ-Max совершила первую ошибку. Модель сильно запутала сама себя и постоянно отвлекалась на различные «но». Например, она долго размышляла, может ли автомат с ложной этикеткой «чай» выдавать чай или случайный напиток, чем окончательно сбила сама себя с толку.
Вместо того чтобы остановиться и проверить условия еще раз, нейросеть продолжала накручивать сама себя, снова и снова перебирая одни и те же аргументы. В результате она пришла к неверному ответу — сказала, что потребуется две монеты вместо одной.


Математическая задача. В этот раз QwQ-Max справилась. Она сразу поняла, что это геометрическая прогрессия, и даже корректно записала нужную формулу. Но все равно модель снова начала сомневаться, а еще она долго переводила копейки в рубли и обратно.
QwQ-Max явно хотела убедиться, что нигде не допустила ошибку — именно поэтому решение заняло больше времени, чем могло бы.


Задача на программирование. В этот раз QwQ-Max приятно удивила. Модель справилась с задачей гораздо быстрее, чем с предыдущими, и показала четкую логику рассуждений. Она быстро поняла требования, аккуратно разбила их на шаги и написала код.
QwQ-Max сгенерировала рабочий генератор паролей на Python, удовлетворяющий всем заданным условиям. При этом на размышления нейросеть потратила всего 10—20 секунд — над предыдущими задачами она думала дольше.


Моральная дилемма. «Проблема вагонетки» вызвала у QwQ-Max меньше всего затруднений. Она описала два основных подхода к решению — утилитарный и деонтологический, и сразу же перешла к выводу.
При этом QwQ-Max не стала подробно погружаться в философские детали. На этот раз ответ был прямой и понятный, хотя насчет этических вопросов можно было бы порассуждать подольше.


👍 Плюсы:
- Бесплатно.
- В основном отвечает верно.
👎 Минусы:
- Единственная нейросеть, которая не справилась с задачей на логику.
- Путает сама себя.

Grok-3
Качество ответов: ⭐⭐⭐⭐
Где доступна: сайт (недоступен из РФ), соцсеть X
Лимиты бесплатной версии: 10 запросов каждые 2 часа
Стоимость: больше запросов — 8 $ (715 ₽) в месяц
Grok-3 — последняя модель от стартапа xAI, который принадлежит Илону Маску. Нейросеть доступна в отдельном приложении или внутри соцсети X. В третьей версии появился режим Think, который запускает «рассуждающую» модель. Но она находится в бета-версии, так что возможны галлюцинации и ошибки.
Логическая задача. Тут Grok-3 пришлось попотеть: чтобы выдать ответ, потребовалась почти минута. В какой-то момент модель перешла на английский в своих размышлениях — видимо, чтобы принять верное решение.
В итоге нейросеть сгенерировала правильный и подробный ответ: почему нужно бросить монету именно в автомат с этикеткой «случайный» и как после этого быстро определить содержимое оставшихся автоматов.


Математическая задача. Grok-3 снова решила задачу примерно за минуту. Модель сразу определила, что перед ней геометрическая прогрессия, и начала вычислять сумму по формуле.
В середине решения Grok-3 снова переключилась на английский и немного застряла при переводе копеек в рубли. Затем окно с подробными рассуждениями исчезло. Я так и не смог вернуть этот блок. Несмотря на сбой, итоговая сумма оказалась верной.


Задача на программирование. Решая задачу, Grok-3 снова перешла на английский и сгенерировала подробный код на Python с комментариями. Модель объяснила, как именно работает каждый фрагмент программы, и отдельно указала, почему были выбраны конкретные функции и методы генерации символов.
Код полностью соответствует условиям задачи и работает корректно. В конце Grok-3 добавила несколько примечаний, объясняющих, как улучшить или изменить код при необходимости.


Моральная дилемма. Grok-3 быстро приняла такое же решение, как и предыдущие модели: переключить стрелку, чтобы спасти пятерых вместо одного.
При этом модель дала достаточно развернутое объяснение всего за пять секунд. Вероятно, Grok-3 часто задавали такой вопрос, поэтому проблем с ответом не возникло.


👍 Плюсы:
- Бесплатно.
- Отвечает верно.
- Дает очень подробные ответы.
👎 Минусы:
- Жесткие лимиты.
- Иногда случается сбой.
- Может пропустить блок с рассуждениями.

Gemini 2.0 Flash Thinking
Качество ответов: ⭐⭐⭐⭐⭐
Где доступна: сайт, iOS, Android
Лимиты бесплатной версии: примерно 1500 запросов в сутки
Стоимость: больше запросов — за 20 $ (1942 ₽) в месяц
Gemini 2.0 Flash Thinking — первая рассуждающая модель от Google. У нее достаточно большое контекстное окно и высокая скорость ответа. Разработчики называют эту модель экспериментальной, так что могут быть сбои, как и у других ИИ в раннем доступе.
Логическая задача. Gemini 2.0 решила задачу за несколько секунд. Модель сразу поняла, что все этикетки неверные, предложила бросить одну монету в автомат с наклейкой «случайный», а потом определила ответ методом исключения.
Свои размышления Gemini изложила только на английском языке, хотя мой запрос и ее ответ были на русском. Вряд ли нейросеть подойдет тем, кому нужны рассуждения на языке запроса.


Математическая задача. Gemini 2.0 мгновенно распознала в условии геометрическую прогрессию и быстро перешла к расчетам. Она записала формулу, без проблем подсчитала сумму копеек за 18 метров и перевела результат в рубли.
Свои рассуждения модель снова записывала на английском языке. Формулы в самом ответе оказались странными и нечитаемыми, с кусками кода. При этом в блоке рассуждений они понятные, хоть и не очень красиво отформатированы.


Задача на программирование. Gemini недолго рассуждала, но дала максимально подробный ответ — получилось даже лучше, чем у Grok. Модель объяснила, как работает каждый блок кода.
Готовая программа выдает не один пароль, как я просил, а сразу три — с длиной в 8, 12 и 20 символов. Получилось, что можно выбрать подходящий вариант под запросы конкретного сайта, а не менять код каждый раз.


Моральная дилемма. И снова Gemini оказалась очень шустрой. Модель перебрала основные этические моменты и варианты ответа, а затем выдала самое подробное объяснение своей позиции.
В итоге Gemini, как и все остальные, выбрала переключить стрелку, чтобы погиб один человек вместо пяти. Она объяснила свое решение тем, что это уменьшает общий вред.


👍 Плюсы:
- Бесплатно.
- Отвечает верно и быстро.
- Дает очень подробные ответы.
👎 Минусы:
- Жесткие лимиты.
- Рассуждает только на английском.
- В более сложных задачах можно не отловить ошибку из-за не самой подробной логической цепочки.

Claude 3.7 Sonnet
Качество ответов: ⭐⭐⭐⭐
Где доступна: сайт, Android, iOS
Лимиты: неизвестно
Стоимость: 20 $ (1942 ₽) в месяц
Claude 3.7 Sonnet — первая на рынке «гибридная» модель. Обычные нейросети отвечают быстро, но не строят сложные логические цепочки, а «рассуждающие» берут больше времени на решение, зато размышляют пошагово и перепроверяют себя. Claude 3.7 Sonnet одновременно умеет и то и другое. При работе с моделью можно выбирать между стандартным и «рассуждающим» режимом.
Логическая задача. Claude думала примерно минуту. Сначала модель коротко пересказала условия и подчеркнула, что все этикетки перепутаны. Затем она объяснила, почему для проверки содержимого автоматов хватит одной монеты.
Claude предложила сразу кинуть монету в автомат с наклейкой «случайный». Затем она пояснила, как по цепочке определить напитки в оставшихся автоматах. Ответ оказался верным и стройным.


Математическая задача. Модель справилась очень быстро: всего за восемь секунд показала понятное решение задачи. Формулы в ответе не были красиво отформатированы, зато ответ был верным.
Мне почему-то не удалось раскрыть блок с рассуждением — даже после того, как я перезагрузил страницу. Кнопка просто не нажималась.


Задача на программирование. Claude — единственная модель, которая показала процесс улучшения кода. В отличие от всех остальных ответов, ее размышление не состояло из мыслей в привычном понимании. Вместо этого она сначала выдала готовый код, а затем попыталась его оптимизировать или упростить.
В итоге именно этот код оказался самым понятным для разработчиков — благодаря множеству комментариев. Однако пользователю чат-бота, то есть мне, модель оставила минимум пояснений. При этом Claude, как и Gemini, самостоятельно добавила улучшенный вариант, где длина пароля варьировалась от 12 до 16 символов.

Моральная дилемма. Claude справилась быстро, но рассуждала коротко. Вместо подробного объяснения она задала уточняющий вопрос о том, какие именно обстоятельства нужно учесть, чтобы принять решение.
В итоге модель выбрала переключить стрелку и пожертвовать одним человеком ради спасения пятерых. Claude кратко упомянула оба моральных подхода, но подробно не разбирала их аргументы.


👍 Плюсы:
- Отвечает верно и быстро.
- Не путает саму себя и дает стройные ответы.
- Думает за пользователя и за пределами его запросов.
👎 Минусы:
- Доступна только платно.
- Бывают сжатые ответы, которые не всегда удовлетворяют.
Рейтинг «рассуждающих» моделей
😵💫 6-е место. QwQ-Max — единственная модель, которая ошиблась в ответах и часто путалась.
🐌 5-е место. Claude 3.7 Sonnet — ответы и цепочки размышлений сжатые, генерация занимает достаточно много времени. Зато модель идеально подходит для написания кода.
⚡️ 4-е место. GPT-o3-mini-high — отвечает достаточно быстро, при этом цепочки рассуждений непрозрачные, а ответы бывают сжатыми и без подробностей.
🥉 3-е место. Grok-3 — очень подробно размышляет и расписывает ответы, но работает менее стабильно, чем лидеры рейтинга.
🥈 2-е место. DeepSeek-R1 — уступает многим в скорости, но находится на одном уровне с лидерами рейтинга по качеству ответов и превосходит их в прозрачности размышлений.
🥇 1-е место. Gemini 2.0 Flash Thinking — отвечает быстрее всех и дает самые подробные ответы.
Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult