Приложение Т—Ж
В нем читать удобнее

Как мы проверяем валидность оценки сотрудников: что можно измерить, а что — имитация

7

Этот текст написан в Сообществе, в нем сохранены авторский стиль и орфография

Аватар автора

Алексей Ковшенин

Страница автора

В HR‑оценку люди почти всегда приходят с очень прикладными, очень болезненными задачами. Это, кстати, делает HR одним из самых удобных департаментов для оцифровки: KPI понятные, процессы повторяемые, боль — острая.

О Сообщнике Про

Руковожу продуктовым развитием FoxTailBox — платформы для автоматизации оценки сотрудников и кандидатов с помощью ИИ. Работаю на стыке HRTech, EdTech, B2B- и ИИ-продуктов.

Это новый раздел Журнала, где можно пройти верификацию и вести свой профессиональный блог.

Запросы клиентов

И запросы у клиентов почти всегда одинаковые:

Тип первый:

“У нас 10 000 сотрудников. Кто из них молодец? Кого куда ставить?”

Тип второй:

“Мы всё объясняем, регламенты есть, обучение есть — а на смене всё равно делают неправильно.”

Это абсолютно нормальная ситуация. Бизнес решает проблемы по мере их появления — и мы принимаем это с благодарностью, потому что именно здесь начинается настоящая работа с оценкой.

Небольшой экскурс: как человечество вообще оценивало людей
Оценка существует столько же, сколько и обучение.

Сначала всё было просто: может или нет. Условный охотник убил волка — значит, охотник. Никаких “компетенций”, “матриц” и “поведенческих индикаторов”.

Потом появились полисы, школы, библиотеки — и вместе с ними первые бальные системы. Они были универсальны и работали в малых группах.

Но затем случилось страшное: людей стало слишком много. Один учитель может оценить 20 человек. Ну 100. Но не 10 000.

Тогда появились утилитарные маркеры: если человек решает уравнение таким способом — значит, знает вот это. Так родились тесты, которые можно проверять трафаретом.

Но быстро стало ясно: — нет глубины, — нет хода мысли, — нет контекста, — нет понимания, как человек принимает решения.

Оценивать можно только механические вещи.

И вот мы в 2026‑м. У нас есть AI. И это новая веха. Сегодня мы можем оценивать всё: от софт‑скиллов до сложных технических задач.Но главный вопрос остаётся прежним: это валидная оценка или красивая имитация?

В HR это особенно заметно: можно сделать 100 вопросов, 10 шкал, красивый отчёт — и получить ноль связи с реальной работой.

Что мы считаем валидностью

Для нас валидность — это когда результат оценки предсказывает или объясняет поведение в работе, а не просто измеряет “знание терминов”.

Зелёный флаг — оценка привязана к реальным рабочим ситуациям, и видно, как человек думает.

Красный флаг — оценка меряет то, что проще измерить (скорость, объём текста, угадывание) и выдаёт это за компетентность.

“Одинаковые рабочие ситуации, разные уровни” — как мы строим грейды

Самая рабочая конструкция, которую мы используем в проектах: один и тот же кейс → разные ожидания по уровню (jun/mid/sen)

Так и в жизни: ситуация одна, глубина решения — разная.

Пример (условный): “ВНЕЗАПНАЯ ОШИБКА В СИСТЕМЕ”.

junior: безопасность, остановка, базовая диагностика
middle: локализация причины, план действий, коммуникация
senior: root‑cause, профилактика, изменение регламентов, ответственность за систему

Мы не делаем “отдельный тест для синьоров”. Мы делаем один трек, но разные рубрики.

Почему AI здесь даёт качественный скачок

Не потому что “он умнее эксперта”. А потому что он:

  • масштабирует оценку сложных ответов (текст/голос)
  • может одновременно оценить 5 хард‑скиллов и 3–4 софт‑скилла
  • фиксирует критерии прозрачно (почему так оценил)
  • позволяет использовать единые кейсы для всех уровней
  • делает то, что раньше требовало многочасовых комиссий

И да — это всё ещё требует калибровки. Но допущения здесь технические, а не методологические.

Как мы проверяем, что это не имитация

1. Контентная валидность

Кейс должен отражать реальную работу. Мы проверяем это с методологами, руководителями, экспертами, через разбор “как это происходит на смене/в сделке/в продукте”.

2. Надёжность

Если два ассессора смотрят один ответ — оценки должны совпадать. Если человек проходит похожий кейс позже — результат не должен “плясать”.

3. Критериальная валидность

Мы сравниваем результаты с реальными метриками: качество, ошибки, инциденты, скорость адаптации, прохождение ИС, performance review.

Важно: нужен baseline. Без “как было до” любые “90 баллов” ничего не значат.

4. Анти‑гейминг

Мы не оцениваем объём текста или “красивость”. Мы оцениваем: — логику, — приоритеты, — риски, — допущения, — решение задачи.

Это отдельная методология, а не “детектор GPT”.

Как это выглядит в реальном проекте

Недавно мы делали оценку для роли в банковском продукте. У респондента — 40+ минут кейса: поиск данных, расчёты, анализ. Потом — 10–15 минут ответа (примерно 1,5 страницы текста). Вот его критерии оценки

Критерии оценки на вопрос — согласитесь, нужен специалист очень большого уровня, чтобы оценить это в реальной жизни.
AI оценивает это за 10 секунд: показывает сильные стороны, слабые, уровень, рекомендации.

И это не магия. Это просто новая эпоха оценки — глубже, быстрее, масштабируемее.

Вопрос к вам: какой ground truth вы используете у себя, чтобы доказать, что оценка реально работает: performance, инциденты, продажи, скорость адаптации, качество?

Мне правда интересно, потому что именно здесь начинается настоящая валидность.

  • Агафон АгафоновичДля того чтобы получить валидность вам нужны тысячи оценок и дальнейшее их отслеживание на протяжении длительного времени чтобы понять ловит ли ИИ закономерности или нет. И потом автоматизация скорее всего применяется на полевых сотрудниках; а банках среди них такая текучка, что длительного наблюдения там в принципе не будет1
  • Алексей КовшенинАгафон, не соглашусь с вами, недавно как раз был кейс работы с банком, у них было. 1) Составленное ядро компетенций на каждую роль 2) Свои методы оценки для всех навыков любой роли команды 3) Четкие результаты оценки с пояснениями по каждому участнику с ретроспективой на 5 лет. Естественно это если сотрудник столько проработал. Нам по факту осталось при внедрении только перехватить эстафету и сделать продолжить этот лонгитюдный поток данных. Поэтому там основа методологии была не придумать оценку а сделать оценку в той же парадигме что и у их экспертов.0
  • Агафон АгафоновичАлексей, у вас в любом случае будет серьезная ошибка выборки, так как сотрудников конкретного банка в опытом работы от 5 лет в лучшем случае будет несколько сотен. Заточка ИИ под мнение экспертов - просто автоматизация принятия решения.0
  • Алексей КовшенинАгафон, любая оценка суть автоматизация решений. Нам нужно знать как раз на больших объемах кто хорошо будет выполнять свои задачи, а кто нет. Это суть оценки. Даже у ЕГЭ тот же принцип. ИИ только помогает автоматизировать процесс, как вы правильно заметили. Там где раньше требовалось 20 экспертов и 100 часов времени сегодня хватает одного и 10. Это ли не прекрасно для бизнеса? Ведь эксперты дороже чем люди с большой текучкой0
  • Агафон АгафоновичАлексей, выгодно ли это для бизнеса? В теории да, но давайте пофантазируем. Допустим, условная Пятерка прогонит своих продавцов через ваш ИИ, скорее всего, 95% будут признаны непригодными и отправлены на улицу. А хватит ли оставшихся 5% на обслуживание многочисленных пивнарей?1
  • Алексей КовшенинАгафон, нас обычно используют для других задач. Условно надо сократить не 50, а 10%, причем так, чтобы было перекрытие навыков и не было пробелов в штате. Или пришли на завод стажеры после ПТУ - 150 человек, надо из них выбрать человек 10 толковых, отправить в кадровый резерв остальным просто практику поставить и пусть гуляют. Это реальные задачи. Чтобы их делать нужны эксперты которые знают предприятие, системы оценки, как что проводить и оценить и т.д. - при этом эти эксперты дорогие и отрывать их ради стажёров никто не хочет. Вот тут мы и приходим. Не очень, если честно, понимаю ваш скепсис. Это реальное решение, которое уже работает и уже внедрено в десятки бизнесов.0
  • Агафон АгафоновичАлексей, я понял. Скепсиса никакого нет- я сам ИИ широко использую и экономлю на этом кучу времени.0