Может ли ChatGPT сдать ЕГЭ по рус­скому и по матема­тике? Мы проверили
Нейросети
1K
Сгенерированное изображение — Таня Бронникова / Midjourney

Может ли ChatGPT сдать ЕГЭ по рус­скому и по матема­тике? Мы проверили

Чтобы получить аттестат и окончить школу
10
Аватар автора

Даша Лейзаренко

сдавала ЕГЭ сама 11 лет назад

Страница автора

Обычно нейросети проверяют на бенчмарках — специальных тестах для проверки знаний и оценки их работы.

Мы пошли другим путем: в преддверии ЕГЭ дали ChatGPT задания по русскому и математике. Если школьник не сдаст эти предметы, он не получит аттестат о среднем образовании.

Рассказываем, сколько баллов набрала нейросеть, с чем справилась, а с чем нет. Тестовую часть сверили сами, а задания с развернутым ответом показали экспертам, которые проверяют работы на настоящем ЕГЭ.

Как проходил эксперимент

Как выбирали задания. Экзамен составили на популярной платформе «Решу ЕГЭ». Там собраны задачи из открытого банка ФИПИ, демоверсий, прошедших ЕГЭ, авторских подборок от редакции сервиса. Получились варианты, приближенные к реальным: в генератор вариантов на «Решу ЕГЭ» попадают задания, подходящие под критерии текущего года. Также в них были ответы с решениями, которые потом пригодились для сверки.

ЕГЭ оценивают первичными и производными баллами, или тестовыми. Первичные баллы разные в каждом предмете, потом их переводят в тестовые по специальной таблице — в стобалльную шкалу.

Какая нейросеть решала ЕГЭ. Мы выбрали ChatGPT — самый популярный чат-бот в мире. Он недоступен в России, но уверенно отвечает на русском языке. Мы использовали модель GPT-4o — актуальную базовую версию. Она доступна бесплатно, но мы положились на платную версию, чтобы не было лимитов  .

Мы проходили каждый экзамен в отдельном чате, чтобы исключить влияние одного предмета на другой. Вряд ли нейросеть перепутала бы русский язык с математикой, но ChatGPT запоминает контекст диалога, и в теории могла бы начать использовать логику или стиль из предыдущих заданий.

Какие условия были у нейросети. При решении ЕГЭ по русскому копировали задания и вставляли их в диалог текстом. А вот для математики использовали скриншоты: так проще избежать путаницы с формулами.

Мы использовали такой вводный запрос: «Я решаю ЕГЭ. Буду отправлять тебе задания по одному, а ты должен их решить. Вот первое: [условие задачи]». Дальше отправляли нейросети задания по одному.

Если в формулировке задания явно указывалось, что правильных ответов несколько, а нейросеть выдавала только один, мы писали, что «ответов должно быть два или больше». В остальных случаях мы не подсказывали и не редактировали решения — принимали ровно тот ответ, который выдала ChatGPT. От этого правила мы отошли только один раз, когда нейросеть запуталась в правиле на Н и НН.

Как нейросеть сдала ЕГЭ по русскому

ЕГЭ по русскому языку состоит из двух частей. В первой — тестовые задания, которые проверяют знание орфографии, лексики, грамматики, пунктуационных норм. Во второй части одно задание — сочинение на основе заданного текста, в нашем случае это был отрывок из сочинения Валентина Катаева. Его проверяют эксперты по специальным критериям.

На решение заданий ученикам дают 3 часа 30 минут. Нейросеть справилась со всем за полчаса. Вот что получилось.

В тестовой части ChatGPT правильно решила 20 заданий из 26. Ошибки оказались разбросаны по разным темам — нельзя сказать, что у модели есть слабое место в какой-то конкретной области русского языка.

Промахи случались в заданиях самых разных типов, но чаще — в тех, где нужно выбрать сразу несколько правильных вариантов. В одних случаях нейросеть добавляла лишний ответ, в других — упускала нужный.

Вероятно, такие ошибки связаны с тем, что модель не всегда верно распознает структуру задания и требования к ответу. Она выбирает наиболее вероятный вариант, игнорируя детали — например, что правильных должно быть несколько.

Все ответы подробные и детальные
Все ответы подробные и детальные

Бывает и такое, что нейросеть пишет слово правильно, но утверждает иное. Например, в одном задании ChatGPT верно использовала слово «песчаный» — с одной буквой Н, как и положено. Но в пояснении утверждала, что в слове две Н. В итоге ответ на задание получился неправильный. А позже — наоборот: настаивала, что «песчаный» входит в исключения и надо писать две Н.

Это типичный пример галлюцинации — когда нейросеть пишет бред и пытается убедить пользователя в истине своего утверждения. Это опасно, потому что нейросеть может ввести в заблуждение, если вы не перепроверяете ее ответы.

«Песчаный — две Н». В своем уме?
«Песчаный — две Н». В своем уме?
Настаивает, что песчаный — исключение из правил
Настаивает, что песчаный — исключение из правил
Не может заставить себя написать песчаный с двумя Н, но продолжает убежать меня
Не может заставить себя написать песчаный с двумя Н, но продолжает убежать меня
Нейросети пришлось думать несколько раз над одним и тем же вопросом
Нейросети пришлось думать несколько раз над одним и тем же вопросом

Еще одна ошибка: в задании на словообразование ChatGPT перепутала часть речи. Вместо наречия «звонче» выбрала глагол «положи». Видимо, с определением грамматических форм в русском языке у модели есть трудности.

В итоге 20 набранных первичных баллов принесли бы ChatGPT 43 тестовых.

Тестовая часть ЕГЭ по русскому языку

Тема заданияОтвет нейросетиВерен ли ответ
1Орфоэпияво-вторых
2Лексика1 2 5
3Стилистика1 3 4 5
4Ударения1 2 3 4
5Лексические нормысопротивление
6Лексические нормыправильное
7Морфологияположи
8Синтаксис3 4 8 9 2
9Гласные и согласные в корне2 3
10Приставки, ъ и ь2 4
11Суффиксы1 5
12Суффиксы5
13Не и ни2 3 5
14Орфография1 5
15Орфография2
16Пунктуация1 2 5
17Пунктуация2 3 5
18Пунктуация3 4
19Пунктуация1
20Пунктуация1 2 4
21Пунктуация1 3
22Связь предложений в тексте6 5 1 9 3
23Связь предложений в тексте5
24Стили речи и типы текста2 5
25Стили речи и типы текстачинами
26Логика текста33 41

Тестовая часть ЕГЭ по русскому языку

Задание № 1
Тема заданияОрфоэпия
Ответ нейросетиво-вторых
Верен ли ответ
Задание № 2
Тема заданияЛексика
Ответ нейросети1 2 5
Верен ли ответ
Задание № 3
Тема заданияСтилистика
Ответ нейросети1 3 4 5
Верен ли ответ
Задание № 4
Тема заданияУдарения
Ответ нейросети1 2 3 4
Верен ли ответ
Задание № 5
Тема заданияЛексические нормы
Ответ нейросетисопротивление
Верен ли ответ
Задание № 6
Тема заданияЛексические нормы
Ответ нейросетиправильное
Верен ли ответ
Задание № 7
Тема заданияМорфология
Ответ нейросетиположи
Верен ли ответ
Задание № 8
Тема заданияСинтаксис
Ответ нейросети3 4 8 9 2
Верен ли ответ
Задание № 9
Тема заданияГласные и согласные в корне
Ответ нейросети2 3
Верен ли ответ
Задание № 10
Тема заданияПриставки, ъ и ь
Ответ нейросети2 4
Верен ли ответ
Задание № 11
Тема заданияСуффиксы
Ответ нейросети1 5
Верен ли ответ
Задание № 12
Тема заданияСуффиксы
Ответ нейросети5
Верен ли ответ
Задание № 13
Тема заданияНе и ни
Ответ нейросети2 3 5
Верен ли ответ
Задание № 14
Тема заданияОрфография
Ответ нейросети1 5
Верен ли ответ
Задание № 15
Тема заданияОрфография
Ответ нейросети2
Верен ли ответ
Задание № 16
Тема заданияПунктуация
Ответ нейросети1 2 5
Верен ли ответ
Задание № 17
Тема заданияПунктуация
Ответ нейросети2 3 5
Верен ли ответ
Задание № 18
Тема заданияПунктуация
Ответ нейросети3 4
Верен ли ответ
Задание № 19
Тема заданияПунктуация
Ответ нейросети1
Верен ли ответ
Задание № 20
Тема заданияПунктуация
Ответ нейросети1 2 4
Верен ли ответ
Задание № 21
Тема заданияПунктуация
Ответ нейросети1 3
Верен ли ответ
Задание № 22
Тема заданияСвязь предложений в тексте
Ответ нейросети6 5 1 9 3
Верен ли ответ
Задание № 23
Тема заданияСвязь предложений в тексте
Ответ нейросети5
Верен ли ответ
Задание № 24
Тема заданияСтили речи и типы текста
Ответ нейросети2 5
Верен ли ответ
Задание № 25
Тема заданияСтили речи и типы текста
Ответ нейросетичинами
Верен ли ответ
Задание № 26
Тема заданияЛогика текста
Ответ нейросети33 41
Верен ли ответ

Сочинение. С сочинением ChatGPT справилась уверенно — получила 20 баллов из 22 возможных. Нейросеть умеет рассуждать, формулировать мысли и строить логичный текст по заданной теме.

В нашем случае задание звучало так — «Почему первое впечатление о человеке может быть ошибочным?». Нужно было проанализировать отрывок из текста Валентина Катаева, выделить авторскую позицию, выразить к ней свое отношение, подкрепив аргументом из опыта: жизненного, литературного.

Содержание получилось грамотным и по структуре, и по смыслу. Модель сформулировала проблему и прокомментировала ее. Язык сочинения — с хорошим словарным запасом и логичными связками между абзацами.

Минус балл она получила за то, что нечетко связала примеры с формулировкой проблемы, не пояснила ее. Еще балл сняли за аргумент — по сути, его не было. В целом сочинение получилось на уровне уверенного выпускника. Если бы нейросеть лучше проработала аргументацию, могла бы получить максимум.

ChatGPT набрала 20 первичных баллов за сочинение — в сумме с тестовой частью получилось 40. Если перевести их в тестовые по специальной таблице, получится 73 балла за весь экзамен. Это выше среднего — в 2024 году типичный результат составлял 64 балла  .

73 балла
набрала ChatGPT на ЕГЭ по русскому языку

Как нейросеть сдала профильное ЕГЭ по математике

Профильный ЕГЭ по математике состоит из двух частей. В первой — 12 заданий, на которые достаточно дать краткий ответ. Процесс решения тут не проверяют. Вторая часть состоит из семи заданий, на которые нужно дать развернутый и подробный ответ.

Ученикам на решение дают 3 часа 55 минут. Нейросеть справилась за полчаса — у нас уходило больше времени на то, чтобы делать скриншоты заданий и отправлять в диалог, чем у ChatGPT — решать. Вот как она справилась.

Тестовая часть ЕГЭ по математике далась ChatGPT легко. В задачах на геометрию нейросеть показала себя уверенно — правильно рассчитала углы в окружности, не запуталась в координатах прямоугольника и точно определила высоту пирамиды.

Первую ошибку ChatGPT допустила в задании на условную вероятность. Вместо того чтобы рассчитать ее по формуле, модель просто сравнила количество точек и пришла к неправильному выводу. Зато с классической вероятностью — задачей про бросание монеты — справилась без ошибок.

Что-то пошло не так
Что-то пошло не так
На «РешуЕГЭ» решение более подробное
На «РешуЕГЭ» решение более подробное

Задачи по алгебре и математическому анализу ChatGPT тоже решила почти идеально: ей хорошо даются уравнения и логарифмы. Она ошиблась только в задании на работу с графиком функции, где нужно было определить значение параметра по точке на графике. Модель неправильно определила знак, из-за чего дала неверный ответ.

В итоге в тестовой части ChatGPT решила 10 задач из 12 и набрала 58 первичных баллов.

Тестовая часть ЕГЭ по математике

Тема заданияОтвет нейросетиВерен ли ответ
1Геометрия35
2Векторы5
3Геометрия4
4Теория вероятности0,5
5Теория вероятности0,5
6Уравнения и неравенства−9
7Степени и логарифмы0
8Функции3
9Прикладная задача0,08
10Текстовая задача44
11Зависимости между величинами−0,04
12Значения функции4

Тестовая часть ЕГЭ по математике

Задание № 1
Тема заданияГеометрия
Ответ нейросети35
Верен ли ответ
Задание № 2
Тема заданияВекторы
Ответ нейросети5
Верен ли ответ
Задание № 3
Тема заданияГеометрия
Ответ нейросети4
Верен ли ответ
Задание № 4
Тема заданияТеория вероятности
Ответ нейросети0,5
Верен ли ответ
Задание № 5
Тема заданияТеория вероятности
Ответ нейросети0,5
Верен ли ответ
Задание № 6
Тема заданияУравнения и неравенства
Ответ нейросети−9
Верен ли ответ
Задание № 7
Тема заданияСтепени и логарифмы
Ответ нейросети0
Верен ли ответ
Задание № 8
Тема заданияФункции
Ответ нейросети3
Верен ли ответ
Задание № 9
Тема заданияПрикладная задача
Ответ нейросети0,08
Верен ли ответ
Задание № 10
Тема заданияТекстовая задача
Ответ нейросети44
Верен ли ответ
Задание № 11
Тема заданияЗависимости между величинами
Ответ нейросети−0,04
Верен ли ответ
Задание № 12
Тема заданияЗначения функции
Ответ нейросети4
Верен ли ответ

Задания с развернутым ответом — самые сложные. Здесь дают баллы не только за решение задачи, но и за ход выполнения. Ни одно задание из этой части обычно не решают больше половины выпускников. Максимум — 47% за 13-е задание на тригонометрические уравнения  .

За решение тригонометрического уравнения ChatGPT, как и школьники, получил высший балл. Несмотря на небольшой недочет в оформлении, ответ оказался верным — эксперт зачел его полностью.

Без ошибок нейросеть справилась и с прикладными задачами — правильно составила математические модели по условиям и верно провела вычисления. Экономическую задачу она тоже решила верно. Такие типы задач оказались для нее самыми легкими: они требовали четкого алгоритма и перевода условия текстовой задачи в формулы.

Проблемы начались там, где нужно пространственное мышление. Сложнее всего нейросети далась геометрия. В 14-й задаче она неправильно посчитала расстояние от точки до плоскости. Это задание в 2024 году верно решили 4% учеников. В 17-м примере ошиблась в нахождении длины отрезка, подставив некорректную формулу. Здесь в среднем справлялись 9% выпускников. При этом в обоих случаях начала она верно, но ошиблась в расчетах.

Еще одна ошибка закралась в задачу на графики функций. Вместо того чтобы рассмотреть взаимное расположение графиков визуально, нейросеть попыталась решить все аналитически, но не справилась и дала неверный ответ. Преподаватель порекомендовал решить это задачу графическим способом, потому что в таком случае проще прийти к правильному ответу.

Задания с развернутым ответом ЕГЭ по математике

Тема заданияМаксимальное количество балловСколько набрала нейросеть
13Тригонометрическое уравнение22
14Геометрическая задача31
15Прикладная задача22
16Прикладная задача22
17Геометрическая задача31
18Графики функций41
19Экономическая задача44

Задания с развернутым ответом ЕГЭ по математике

Задание № 13
Тема заданияТригонометрическое уравнение
Максимальное количество баллов2
Сколько набрала нейросеть2
Задание № 14
Тема заданияГеометрическая задача
Максимальное количество баллов3
Сколько набрала нейросеть1
Задание № 15
Тема заданияПрикладная задача
Максимальное количество баллов2
Сколько набрала нейросеть2
Задание № 16
Тема заданияПрикладная задача
Максимальное количество баллов2
Сколько набрала нейросеть2
Задание № 17
Тема заданияГеометрическая задача
Максимальное количество баллов3
Сколько набрала нейросеть1
Задание № 18
Тема заданияГрафики функций
Максимальное количество баллов4
Сколько набрала нейросеть1
Задание № 19
Тема заданияЭкономическая задача
Максимальное количество баллов4
Сколько набрала нейросеть4

В итоге за письменную часть нейросеть набрала 13 из 20 возможных баллов. В сумме с баллами за первую часть получается 23. Переведем первичные баллы в тестовые и получим 92 балла — почти максимум. Здесь нейросеть попала в 18% выпускников 2024 года, которые набрали от 81 до 100 баллов  .

92 балла
набрала ChatGPT на ЕГЭ по профильной математике

Что в итоге

  1. ChatGPT неплохо справляется с типовыми задачами. И в алгебре, и в орфографии нейросеть показывает уверенный уровень — ее ответы часто правильные, структура текста логична, а рассуждения соответствуют критериям экзамена.
  2. Нейросеть делает ошибки, причем порой грубые, и не замечает этого. Проблемы возникают в заданиях с несколькими правильными ответами, в грамматике, геометрии. Также модель может перепутать формулировки или неправильно интерпретировать визуальные данные.
  3. Сочинения — сильная сторона ChatGPT. Модель пишет связные и грамотные тексты по структуре экзамена. При этом качество аргументов может хромать.
  4. С математикой нейросеть справилась лучше, чем с русским языком, но, возможно, на других вариантах этого бы не случилось.

Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult

Даша ЛейзаренкоГотовитесь к экзаменам с помощью нейросетей? Поделитесь опытом:
  • Alexandra P.Пугающие результаты, конечно. Такими темпами население быстро деградирует.6
  • andy313Конечно, использование старой версии gpt4o - это попытка показать, что у людей не всё так плохо, а у нейросетей не всё так хорошо. Уверен, если бы взяли более умную модель (или вообще режим "глубокое исследование" ) - результат бы выглядел интереснее (тем более что вы всё равно использовали платную версию chatGpt)3
  • Mihalpalychkapitalникак, я уже готовлюсь к пенсии (без помощи нейросетей)2
  • НиколайAlexandra, по идее и нейросети вместе с ним туда же должны:-)5
  • ИринаЖаль, что для нейросети был выбран старый формат ЕГЭ по русскому. В этом году задания несколько иные. В задании номер 1 проверяется не орфоэпия, а в 22 теперь изобразительно-выразительные средства языка.2
  • Сергей БочкаревНу так ЕГЭ - это типовой экзамен, где известны структура и типы заданий, есть примеры. Эту информацию надо обобщить и применить. Для этого нейросети как раз хорошо подходят. Вот если бы нейросеть попросили решить неизвестную заранее олимпиадную задачу...0
  • Марк РыжиковПавел, вы немного не правы, потому что описали только случай злоупотребления технологией (но школьники так и готовятся, полагаю, так что заминусили). Так вот, нейронка - инструмент. Молотком можно забить гвоздь, а можно пойти соседу череп проломить потому что он музыку слишком громко включил. Очевидно какой из вариантов правильный. Как правильно готовится к экзамену с чатботом? Пример: сидишь решаешь какую-нибудь задачу по геометрии/алгебре из второй части, они там большие и сложные, но застрял на определённом моменте и уже час голову ломаешь, но идей нет. Допустим нужно доказать параллельность двух линий. Задаём боту вопрос: вот условие задачи, вот то что я сделал, надо доказать что вот эти две линии параллельны, чтобы двигаться дальше, но хоть убей не знаю как это сделать. Предложи варианты, но не делай готовое решение. Такая структура вопроса позволяет ученику самому подумать, но при этом не тупить над задачей неделю. Конечно, в идеале, уметь полностью самостоятельно мыслить, но для этого необходимо развить навык мышления, а небольшая подсказка позволяет и задачу решить, и чему-то научиться в процессе. Хотя в целом я с вами согласен. Сам работаю учителем, у детей нет культуры использования обсуждаемого инструмента. Для них нейронка - волшебник который магическим образом решает все проблемы.5
  • Павел ТурышкинМарк, я прекрасно понимаю, что нейросеть - это инструмент) многие мои коллеги, как и я, используют в работе этот инструмент. Но ключевой пункт в использовании любого инструмента - понимание, как он работает, как Вы и сказали. Многие люди даже банально нормально гуглить не умеют, хотя вот этот навык нейросети могут легко нивелировать. Но Вы, как и все люди, способные думать, понимаете, что НИКТО из учеников, готовящихся к экзаменам, не будет писать нейросети ", но не делай готовое решение". Это обусловлено ленью, которая двигатель прогресса. Это не логично и возможно только в наших фантазиях. Но, если кто-то предпочитает обманываться, то пожалуйста, мне же, и тем, кто готовится САМОСТОЯТЕЛЬНО, лучше. Они будут просто на другом уровне развития. Принципиально другом, но дети, готовящиеся к экзаменам этого не понимают. Для одних людей нейронка - инструмент, а для других - волшебник. Не нужно быть человеком, для которого нейросети - волшебство. Впрочем, чем больше таких людей, тем мы конкурентноспособнее на рынке труда.0