16.03.26

Я разработал приложение для транскрипции видео и аудио

Обсудить

Этот текст написан в Сообществе, в нем сохранены авторский стиль и орфография

Тимур

Страница автора

Исходные данные

По работе я часто участвую в созвонах. После них нередко нужно вернуться к какому‑то конкретному моменту, чтобы что-то проверить или уточнить. Обычно для этого приходится пересматривать запись и вручную искать нужный фрагмент, а особенно больно, если не делал никаких заметок.

Со временем мне захотелось упростить этот процесс: например, не переслушивать встречу целиком, а получать текстовую расшифровку и быстро находить в ней нужную информацию. Я посмотрел существующие решения, но многие из них оказались либо платными, либо неудобными.

В последнее время одним из моих основных развлечений стала разработка пет‑проектов. Поэтому я решил сделать собственное приложение для транскрипции с упором на UX и несколькими приятными фичами. Я назвал его Vocrify.

Создание

Сначала я изучил доступные технологии. Выяснилось, что есть открытые модели распознавания речи от OpenAI, Nvidia, Сбера. Кроме самой транскрипции, для меня было важно реализовать и диаризацию — разделение речи по спикерам, чтобы в готовом тексте было понятнее, кто именно говорит.

В результате выстроился такой процесс обработки: сначала приложение распознает речь, затем разделяет реплики по спикерам, а после этого объединяет все это в единые текстовые сегменты.

Еще одним важным требованием была приватность. Так как, в этом приложении возможно придется делать транскрипции созвонов, которые могут содержать чувствительную информацию, то мне очень не хотелось, чтобы данные отправлялись во внешние сервисы, поэтому изначально ориентировался на полностью локальную обработку. Именно поэтому приложение было сделано как десктопное на Tauri (под капотом Rust).

Для самой обработки видео/аудио можно использовать как видеокарту, так и процессор. Конечно, видеокарта тут сильно предпочтительнее

Итоги и планы

В итоге у меня получилось open-source приложение для Windows (код доступен на Github), которое позволяет сделать локальную транскрипцию и диаризацию аудио и видеофайлов, просмотреть результат в удобном интерфейсе и при необходимости экспортировать текст в нужный формат.

Из планов на будущее улучшать скорость и качество работы приложения, исправлять баги, возможно добавлять какие-то новые модели, если они будут появляться.