Приложение Т—Ж
В нем читать удобнее

MLLM: как мы перешли от «просто текста» к картинкам и сэкономили часы технологов

Обсудить

Этот текст написан в Сообществе, в нем сохранены авторский стиль и орфография

Аватар автора

Андрей Мелков

Страница автора

До недавнего времени я, как и многие, думал, что большие языковые модели (LLM) — это про текст. Написал запрос — получил ответ. Всё логично. Но в реальных бизнес-задачах информация редко приходит в виде аккуратного текста. Чаще это скриншот ошибки в 1С, фотография чертежа, скан счёт-фактуры или фото витрины магазина. И вот тут обычные LLM пасуют: они не видят картинку.

Поэтому когда появились мультимодальные модели (MLLM), я отнёсся к ним скептически — думал, очередной хайп. Но после пары реальных внедрений мнение поменялось. Расскажу, в чём разница и где MLLM реально помогает, а где пока нет.

О Сообщнике Про

Директор компании «Технология и бизнес». Более 20 лет работаю в автоматизации, а с 2016 года внедряю ИИ в бизнес.

Это новый раздел Журнала, где можно пройти верификацию и вести свой профессиональный блог.

Чем MLLM отличается от LLM на практике

Если совсем просто: LLM понимает только текст. MLLM — текст плюс изображения (а иногда и аудио). Но главное не в этом. Главное — MLLM может «посмотреть» на картинку и сделать выводы, которые раньше требовали или OCR, или живого глаза.

Мы тестировали несколько сценариев.

Сценарий 1. Скан счёт-фактуры. Обычная LLM не видит картинку. Пришлось бы сначала распознавать текст через OCR, а потом кормить модели. Если скан кривой или с помарками, OCR ошибается, и LLM даёт неверный ответ. MLLM анализирует изображение целиком, видит таблицу, расположение полей, может отличить сумму от НДС даже при плохом качестве. В одном из тестов MLLM правильно извлёк реквизиты из 90% плохих сканов, тогда как связка OCR+LLM дала только 65%.

Сценарий 2. Скриншот ошибки в 1С. Сотрудник делает скрин, кидает в чат. Раньше нужно было описать ошибку словами. MLLM смотрит на скрин и говорит: «Это ошибка “Недостаточно прав”, перейдите в раздел “Администрирование — Настройки доступа”». Мы внедрили такого ассистента для внутренней поддержки — время решения типовых инцидентов сократилось в 3 раза.

Сценарий 3. Проверка витрины по фото. Сеть магазинов попросила автоматизировать контроль выкладки товара. Менеджер фотографирует стеллаж, MLLM сравнивает с эталоном (тоже картинкой) и выдаёт: «Нет ценников на третьей полке, позиция “Молоко” выложена не по планограмме». Раньше это делал человек — дорого и медленно.

Где MLLM пока не заменил человека

Но есть и обратная сторона. MLLM отлично справляется с типовыми, формализуемыми визуальными задачами. Но когда нужно принять решение на основе сложного контекста или неочевидных деталей — пока пасует.

Например, мы пытались использовать MLLM для контроля сварных швов на производстве по фото. Модель видела трещины только на контрастных, идеально освещённых снимках. В цехе с переменным светом и грязными объективами точность упала до 60% — неприемлемо. Вернулись к контролёрам-людям. Но подсветку проблемных зон на фото MLLM делал хорошо — это ускорило работу человека.

Мои выводы после внедрений

Первый. MLLM не панацея, но для задач, где информация «зашита» в изображениях, это прорыв. Особенно в документообороте, контроле качества, поддержке пользователей.

Второй. Не нужно пытаться заменить человека полностью. Лучше использовать MLLM как ассистента: он быстро делает черновую работу (извлёк поля, нашёл отклонения, подсказал), а человек принимает финальное решение.

Третий. Качество работы MLLM сильно зависит от того, как подано изображение. Чем ближе к эталону (хорошее освещение, чёткий текст, минимум шумов), тем точнее результат. В наших проектах предобработка картинок (повышение контраста, обрезка, нормализация) увеличивала точность на 15–20%.

Когда стоит смотреть в сторону MLLM

Если в вашем бизнесе есть задачи, где нужно регулярно «смотреть» на однотипные изображения и извлекать из них данные или находить отклонения — MLLM может сильно сократить рутину. Это счета и накладные, скриншоты ошибок, фото продукции, чек-листы с фотофиксацией. Если же изображения каждый раз уникальные и неструктурированные — пока дешевле и надёжнее оставить человека.

А вы пробовали использовать мультимодальные модели в своих проектах? Для каких задач? С какими неожиданными сложностями столкнулись? Или, может, наоборот, нашли сценарий, где MLLM сделал то, что казалось невозможным? Буду рад услышать ваш опыт.

Сообщество
Элина Углова
Элина Углова
Мои рисунки: море