MLLM: как мы перешли от «просто текста» к картинкам и сэкономили часы технологов
Этот текст написан в Сообществе, в нем сохранены авторский стиль и орфография
До недавнего времени я, как и многие, думал, что большие языковые модели (LLM) — это про текст. Написал запрос — получил ответ. Всё логично. Но в реальных бизнес-задачах информация редко приходит в виде аккуратного текста. Чаще это скриншот ошибки в 1С, фотография чертежа, скан счёт-фактуры или фото витрины магазина. И вот тут обычные LLM пасуют: они не видят картинку.
Поэтому когда появились мультимодальные модели (MLLM), я отнёсся к ним скептически — думал, очередной хайп. Но после пары реальных внедрений мнение поменялось. Расскажу, в чём разница и где MLLM реально помогает, а где пока нет.
О Сообщнике Про
Директор компании «Технология и бизнес». Более 20 лет работаю в автоматизации, а с 2016 года внедряю ИИ в бизнес.
Это новый раздел Журнала, где можно пройти верификацию и вести свой профессиональный блог.
Чем MLLM отличается от LLM на практике
Если совсем просто: LLM понимает только текст. MLLM — текст плюс изображения (а иногда и аудио). Но главное не в этом. Главное — MLLM может «посмотреть» на картинку и сделать выводы, которые раньше требовали или OCR, или живого глаза.
Мы тестировали несколько сценариев.
Сценарий 1. Скан счёт-фактуры. Обычная LLM не видит картинку. Пришлось бы сначала распознавать текст через OCR, а потом кормить модели. Если скан кривой или с помарками, OCR ошибается, и LLM даёт неверный ответ. MLLM анализирует изображение целиком, видит таблицу, расположение полей, может отличить сумму от НДС даже при плохом качестве. В одном из тестов MLLM правильно извлёк реквизиты из 90% плохих сканов, тогда как связка OCR+LLM дала только 65%.
Сценарий 2. Скриншот ошибки в 1С. Сотрудник делает скрин, кидает в чат. Раньше нужно было описать ошибку словами. MLLM смотрит на скрин и говорит: «Это ошибка “Недостаточно прав”, перейдите в раздел “Администрирование — Настройки доступа”». Мы внедрили такого ассистента для внутренней поддержки — время решения типовых инцидентов сократилось в 3 раза.
Сценарий 3. Проверка витрины по фото. Сеть магазинов попросила автоматизировать контроль выкладки товара. Менеджер фотографирует стеллаж, MLLM сравнивает с эталоном (тоже картинкой) и выдаёт: «Нет ценников на третьей полке, позиция “Молоко” выложена не по планограмме». Раньше это делал человек — дорого и медленно.
Где MLLM пока не заменил человека
Но есть и обратная сторона. MLLM отлично справляется с типовыми, формализуемыми визуальными задачами. Но когда нужно принять решение на основе сложного контекста или неочевидных деталей — пока пасует.
Например, мы пытались использовать MLLM для контроля сварных швов на производстве по фото. Модель видела трещины только на контрастных, идеально освещённых снимках. В цехе с переменным светом и грязными объективами точность упала до 60% — неприемлемо. Вернулись к контролёрам-людям. Но подсветку проблемных зон на фото MLLM делал хорошо — это ускорило работу человека.
Мои выводы после внедрений
Первый. MLLM не панацея, но для задач, где информация «зашита» в изображениях, это прорыв. Особенно в документообороте, контроле качества, поддержке пользователей.
Второй. Не нужно пытаться заменить человека полностью. Лучше использовать MLLM как ассистента: он быстро делает черновую работу (извлёк поля, нашёл отклонения, подсказал), а человек принимает финальное решение.
Третий. Качество работы MLLM сильно зависит от того, как подано изображение. Чем ближе к эталону (хорошее освещение, чёткий текст, минимум шумов), тем точнее результат. В наших проектах предобработка картинок (повышение контраста, обрезка, нормализация) увеличивала точность на 15–20%.
Когда стоит смотреть в сторону MLLM
Если в вашем бизнесе есть задачи, где нужно регулярно «смотреть» на однотипные изображения и извлекать из них данные или находить отклонения — MLLM может сильно сократить рутину. Это счета и накладные, скриншоты ошибок, фото продукции, чек-листы с фотофиксацией. Если же изображения каждый раз уникальные и неструктурированные — пока дешевле и надёжнее оставить человека.
А вы пробовали использовать мультимодальные модели в своих проектах? Для каких задач? С какими неожиданными сложностями столкнулись? Или, может, наоборот, нашли сценарий, где MLLM сделал то, что казалось невозможным? Буду рад услышать ваш опыт.











