Приложение Т—Ж
В нем читать удобнее
6 простых задач, с которыми ChatGPT все еще не справ­ля­ется
Нейросети
7K
Коллаж — Shutterstock-Pixelsquid / Vac1 / Shutterstock / FOTODOM

6 простых задач, с которыми ChatGPT все еще не справ­ля­ется

Зато дети и «Эксель» решают их без проблем
26
Аватар автора

Катя Лебедева

задает задачки

Страница автора

ChatGPT пишет дипломы и находит доказательства для задач Эрдеша — открытых вопросов математики.

Значит ли это, что чат-бот умнее обычного человека? Возможно — если не пытаться выполнять с ним задания для дошкольников.

Я задала стандартной бесплатной версии ChatGPT вопросы, с которыми справляются дети. Оказалось, что нейросеть может решить не все из них.

Некоторые ссылки в статье недоступны из РФ

Задача № 1

Расставить слова в алфавитном порядке

ChatGPT понимает русский язык, знает, что такое алфавит и сортировка, так что проблем с тем, чтобы расставить слова по алфавиту, быть не должно. Но они возникли: нейросеть учитывала первую и вторую буквы слова, а на третьей уже сбивалась. В каких-то случаях ставила слова верно, например «родилась», «росла». А в каких-то нет: перепутала местами «летом» и «лесу».

Электронные таблицы и дети восьми-девяти лет с этим справляются без особых проблем.

Почти получилось, но «лесу» и «летом» должны стоять в другом порядке
Почти получилось, но «лесу» и «летом» должны стоять в другом порядке
Задача № 2

Решить логическую задачку

Я задала ChatGPT классическую задачу про волка, козу и капусту, но заменила персонажей на кошку, собаку и морскую свинку. Я хотела, чтобы модель не взяла готовое решение из интернета или базы своих знаний, а попыталась найти его сама.

Нейросеть сразу поняла, что я замаскировала задачу, отметив, что она классическая. Казалось бы, на этом эксперимент и должен был закончиться. Первые три шага в решении верные: все благополучно переправлены через реку или дорогу. Но потом модель запуталась в собственных рассуждениях на четвертом шаге.

Хозяин взял морскую свинку и понес обратно, при этом остался с собакой и кошкой. По логике он не может быть в двух местах одновременно, а по условиям не может оставить кошку с собакой.

Сначала все шло нормально
Сначала все шло нормально
Задача № 3

Найти путь в лабиринте

Обычное задание для детей от трех до пяти лет: найти путь от входа в лабиринт до выхода. Соединить зайчика с морковкой или, как в моем примере, фрукт с соответствующей коробкой. Проходы относительно широкие, лабиринт небольшой — задание несложное для ребенка. Но непростое для нейросети.

ChatGPT поняла, что от нее требуется, и знает, как должен выглядеть результат. При этом она умеет рисовать фотореалистичные изображения с высокой детализацией. А аккуратно провести линию, соблюдая правила лабиринта, не смогла. Точно так же чат-бот не смог соединить животных с их силуэтами.

В целом, какая линия от фрукта отходит, такая к коробке и приходит
Тут тоже: идею понял верно, а вот с реализацией сложности
Задача № 4

Выбирать слова по инструкции

Я по-разному формулировала один и тот же запрос: просила нейросеть написать текст, выполняя какое-нибудь условие. Например, написать абзац про зимний пейзаж, не используя слова с буквой А.

ChatGPT c удивительной изобретательностью каждый раз выдавала неверный ответ: «тишин» вместо «тишина», «фонорей» вместо «фонарей». А предлог «за» вообще всегда игнорировала.

Ловко придумано с «фонорями»
Ловко придумано с «фонорями»
Задача № 5

Складывать и вычитать дроби

Языковые модели плохо работают с десятичными дробями, если количество знаков после запятой разное. Нейросети не понимают, что 5,9 — это то же самое, что 5,90. Из-за этого им видится, что 5,11 > 5,9.

Это приводит к ошибкам даже в элементарных вычислениях. Я попросила ChatGPT решить простое уравнение в такой же логике: x + 5,11 = 5,9. Правильный ответ: 5,90 − 5,11 = 0,79. Но нейросеть ответила −0,21. Модель провела вычисление в неправильном порядке, поскольку не поняла, что 5,9 > 5,11.

Пятиклассник в таком ошибаться уже не должен
Пятиклассник в таком ошибаться уже не должен
Задача № 6

Сосчитать предметы на картинке

Большинство чат-ботов работает на мультимодальных моделях: они понимают запросы, в которых есть и тексты, и картинки, и голосовые сообщения. Но читают их они все еще не всегда достоверно.

Я попросила ChatGPT посчитать овец на детской картинке, где были нарисованы разные животные. Причем если некоторые свиньи и коровы спрятаны за деревьями или сараем, то овцы — на виду. Чат-бот в принципе умеет распознавать объекты на картинках, но легко ошибается, когда слишком много переменных. В итоге он насчитал больше овец, чем было на самом деле.

Но овец только восемь
Но овец только восемь

Почему нейросети ошибаются в простых задачах

Большие языковые модели обучены не решать задачи как человек, а предсказывать следующий фрагмент текста. Поэтому детские задания могут оказаться им не под силу: их учили совсем по-другому. Вот основные причины их ошибок.

🧩 Нейросети по-другому воспринимают слова. Модель видит текст не как буквы и цифры, а как токены — фрагменты слов и символов. Поэтому в задачах вроде «посчитай количество букв» или «выпиши слова из трех букв» она пытается извлечь символы из того, что изначально хранится в другом формате.

По этой же причине нейросети сложно складывать и вычитать десятичные дроби, если ее учили работать с токенами текста. Она разбивает число 5,11 на токены 5 и 11, а 5,9 — на 5 и 9. И работает с ними по отдельности.

🖍️ Картинки неточно генерируются. Здесь ситуация почти как с текстом: модель угадывает, как должен выглядеть ответ в целом. Например, что на исходное изображение надо добавить несколько линий, когда мы просим соединить предметы. Но для нее это скорее расплывчатая задача на композицию: на картинке должны быть такие-то объекты и где-то между ними — линия или несколько.

🤪 Галлюцинации. Нейросеть стремится выдать максимально уверенный и гладкий ответ. Когда она чего-то не знает, в том числе метода решения задачи, она выдает правдоподобную догадку — и обычно не предупреждает об этом. Например, если модель не уверена в разбиении слова на буквы, она выдает какую-то примерную оценку за ответ.

Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult

Катя ЛебедеваА какую задачу ChatGPT не смогла решить у вас?
  • ДмитрийДипсик, Гугл АИ и Клаудия дроби решают идеально Сети очень разные2
  • МаксимНу не знаю, у меня нашёл всех с первой попытки1
  • Boris KölnЗадача № 2. Можно взять ДВОИХ за один раз?! Тогда сначала свинку и собаку, а потом вернуться за кошкой.3
  • user3245135Boris, итого: - условие задачи было понято неправильно - был сделан неправильный вывод о сходстве задачи с "классической" - зачем-то был вставлен список сокращений, которые вообще ни разу дальше не использовались - даже "классическая" версия задачи в итоге не была правильно решена2
  • Максимuser3245135, то есть берём демо-версию продукта, искусственно ограниченную, задаём задачи, для которых не предназначена демо-версия, делаем вывод о полной версии. Методологию правильно описал?1
  • Владимир ВохменцевС режимом рассуждения вполне неплохо справляются.1
  • Артем18
  • ДмитрийKimi 2.5 Thinking справился с первого раза с 1, 2, 4 и 5 рисовать он не умеет только для сложных логических задач надо использовать рассуждающие модели, будет результат гораздо лучше2
  • Игорьпочти все задачи из статьи ChatGPT 5,2 решил правильно. возможно, причина в том, что версия оплачена4
  • Павел КощеевПопробуйте заставить сочинить частушку, в слог и в рифму) Даже дав рефренсы0
  • user3245135Максим, справедливости ради Chatgpt так и не понял данную задачу даже в платной версии. А вот Gemini и Sonnet молодцы.0
  • Максимuser3245135, в смысле « не понял данную задачу даже в платной версии»? Я чуть ниже скрин приложил https://t-j.ru/list/chatgpt-cant-solve/?utm_referrer=https%3A%2F%2Ft-j.ru%2F#c33539210
  • Andy Lance1
  • Николай АлександровАртем, так то все верно — вы не уточнили какой автомобиль собираетесь мыть )) мож это у вас работа такая — ходить на мойку и мыть автомобили ))9
  • АртемНиколай, ну так-то я ещё не уточнил какая именно мойка у меня в 100 метрах. Может, автомобилей. А может - собак. Ну, прям перед подъездом в элитном ЖК (я ж не уточнил, где я живу - в квартире, в частном доме, или в землянке в лесу), чтобы собаки грязными в подъезд (или парадную, мало ли где я) не заходили. Ещё яйца куриные некоторые моют, почему бы и нет? Да и время не указал - вдруг сейчас 01:46 1 января. Вряд ли мойка работает. Если только она не самообслуживания. Заодно на чём ехать, собственно? Может я имел в виду не автомобиль, а осла, или велосипед (велосипедные мойки, в теории, тоже существуют), или самокат, или я являюсь заядлым скейтером. Да и могу я ехать, если я, например, выпил? Или прав у меня вообще нет? Владеть-то машиной никто не запрещает. Стоит, значит, грязная, пока я на мойку туда-сюда хожу...4
  • Ded PashtedAndy,0
  • АйтишникДоМозгаКостейAndy, DeepSeek оказался самым многословным. С включенными режимами рассуждений и веб-поиска размышлял 5 секунд и выдал сразу несколько ответов. Переворачивание кружки среди них тоже есть, но в итоге он от него отказался:0
  • АйтишникДоМозгаКостей0
  • АйтишникДоМозгаКостей0
  • АйтишникДоМозгаКостей0
  • АйтишникДоМозгаКостей1
  • Кирилл КостинAndy, Клод нормально всё это решает, даже Sonnet0
  • Julia_JИногда по работе приходится выполнять не самые простые задачи, за кодом прихожу в нейросеть (как правило в Джемини). Нейросеть в коде косячит, возможно из-за неточности в промптах. Но после нескольких корректировок ИИ начинает ходить по кругу, повторяя одни и те же ошибки. В чатгпт иногда занимаюсь финским, и она иногда жжет2
  • Белый ветерНайти историю про папу и непослушного мальчика из книг Кастанеды0
  • Белый ветерНайти историю про папу и непослушного мальчика из книг кастанеды.0
  • Игорь СелинНадо очень конкретно формулировать запрос к нейросети. Тогда и ответ будет конкретный. Вы поставили условие - не писать слова с буквой а, она так и сделала, а то, что эти слова с ошибками, такого в условии не обговаривалось.0
Сообщество
Радмир Абдулин
Радмир Абдулин
Рекомендую фильм «Сират»