Приложение Т—Ж
В нем читать удобнее
Как превратить голос в текст: тестируем 6 сервисов для расшифровки

Как превратить голос в текст: тестируем 6 сервисов для расшифровки

И выбираем лучший
60
Аватар автора

Дмитрий Кузьмин

тестировал голосовой ввод

Страница автора

Я работаю с текстом и мечтаю о программе, которая сможет превратить голос в напечатанные слова.

Например, расшифрует за меня интервью длиной в несколько часов. Или позволит наговорить идеи, а в ответ пришлет заметку. Я протестировал 6 таких сервисов: наговорил один и тот же текст, а потом сравнил результаты. Я использовал два способа: сначала давал программе послушать и расшифровать живой голос, а потом — в записи.

Текст для теста

Вот текст для теста: «Привет. Это тестовая запись для статьи об инструментах, которые умеют превращать голос в текст. Как думаете, этот сервис справится? Распознает интонацию вопроса и, например, числа — один, два, три? Вот что получилось».

Google Keep

Где работает: Android, iOS
Сколько стоит: бесплатно

Что умеет. Это приложение для создания и хранения заметок можно использовать как расшифровщик. Если на главном экране нажать на иконку микрофона и начать говорить, то сервис будет переводить звук в текст — это называется транскрибацией. Загрузить и расшифровать аудиофайл не получится.

У сервиса есть еще один минус: запись останавливается, если молчать две-три секунды, поэтому расшифровывать длинные интервью не получится. Разве что делать это небольшими кусками. Наговорить несколько идей и получить их в блокноте получится отлично.

Результат. Я проверил два способа: наговорил текст самостоятельно и включил запись того же текста через колонку — никакой разницы нет. Вышло хорошо: сервис не распознал только знаки препинания и напечатал числа без пробелов.

Таким получился текст в результате расшифровки Google Keep
Таким получился текст в результате расшифровки Google Keep

Сообщения «Вконтакте»

Где работает: Android, iOS
Сколько стоит: бесплатно

Что умеет. В мобильном приложении соцсеть умеет расшифровывать входящие голосовые сообщения. Это можно использовать и в наших целях: отправлять сообщения самому себе.

Для этого зайдите в раздел с диалогами и в поисковом окне вбейте свое имя. Дальше зажмите значок микрофона и наговорите сообщение. Когда оно появится в диалоговом окне, нажмите на «Аа» справа от записи.

Чтобы расшифровать голосовое сообщение, нажмите на «Аа»
Чтобы расшифровать голосовое сообщение, нажмите на «Аа»

Результат. «Вконтакте» расшифровал живой голос с ошибками в склонениях и перепутал несколько слов: например, «сервис» услышал как «серый». Но справился с числами. Записанный и пропущенный через колонку голос сервис расшифровал намного хуже — получился набор слов, который нужно буквально переписывать.

Вот результат расшифровки живого голоса
Вот результат расшифровки живого голоса
А это голос, пропущенный через колонку
А это голос, пропущенный через колонку
1/2
Вот результат расшифровки живого голоса

Transcribe

Где работает: в онлайне
Сколько стоит: 20 $⁣ (1 519 ₽) в год + 6 $⁣ (455 ₽) за час расшифровки
Демодоступ: 7 дней и 1 минута расшифровки

Что умеет. Программа может расшифровать загруженный файл, ролик с «Ютуба» и живую речь. Еще можно регулировать скорость воспроизведения, в том числе ножными педалями для диктовки..

Результат. Транскрибация получилась на уровне Google Keep: сервис вместо слова «например» написал «имя», не поставил пробелы между числами. Зато он определил первое предложение и поставил восклицательный знак. Аналогичный результат и с воспроизведением записанного голоса.

Это голосовой ввод
Это голосовой ввод
А это расшифровка записанного голоса
А это расшифровка записанного голоса

Голосовой блокнот

Где работает: в онлайне, Android, iOS
Сколько стоит: бесплатно

Что умеет. Сервис распознает голосовой ввод: можно надиктовывать самостоятельно, можно воспроизводить диктофонную запись.

Еще в «Голосовом блокноте» есть «панель транскрибации» — так разработчики называют специальную область на сайте, куда можно встроить ролик с «Ютуба» или загрузить файл с аудио или видео. Но расшифровывать речь программа будет во время воспроизведения — то есть никакой экономии времени: загрузить два часа интервью и сразу получить текст не выйдет.

Когда я тестировал сервис, эти функции не заработали. Загрузить записанный на диктофон файл сервис не дал. Еще я попробовал обходной путь — выгрузил этот файл в облако и предложить сервису расшифровать его по ссылке, но тоже ничего не получилось.

Результат. Живой голос сервис расшифровал так же, как и воспроизведенный через колонку. Из ошибок — нет знаков препинания, все одним предложением. И никаких пробелов между числами.

Результат расшифровки живого голоса
Результат расшифровки живого голоса
Аналогичный текст — ввод из включенного файла
Аналогичный текст — ввод из включенного файла

Telegram Premium

Где работает: в онлайне, iOS, Android
Сколько стоит: 299 ₽ в месяц через бота

Что умеет. Мессенджер может расшифровывать входящие голосовые сообщения. Это можно использовать и в наших целях: отправлять сообщения самому себе. Для этого перейдите в сохраненные сообщения, нажмите на значок микрофона, свайпните вверх и начинайте говорить. Когда сообщение появится в диалоговом окне, нажмите на «А» со стрелочкой справа от записи.

Сторонние аудио сервис не расшифрует, но его можно использовать для записи интервью или других диалогов: «Телеграм» поддерживает длинные войсы. Текст пополняется в прямом эфире — он будет добавляться по мере расшифровки.

Результат. Функция расшифровывает аудиосообщения довольно точно и справляется с числами. Но мессенджер ошибся в форме слова «распознавать» и не везде верно расставил знаки препинания. Записанный и пропущенный через колонку голос сервис расшифровал хуже — получился набор слов, но его все равно можно понять.

Живое аудио
Живое аудио
Голос через колонку
Голос через колонку
1/2
Живое аудио

SpeechText.ai

Где работает: в онлайне

Сколько стоит: 15 минут — бесплатно, далее 10 $⁣ (700 ₽) за 180 минут

Что умеет. Транскрибатор, который работает с помощью нейросетей. Расшифровывает только загруженные файлы — нужно будет записывать голос заранее, а потом загружать файл на сайт. Зато удобен для расшифровки интервью.

Поддерживает сразу 30 языков, включая русский. Можно выбрать тематику аудио, а также его вид: интервью, телефонный звонок, конференция и так далее.

Результат. Двадцатисекундное аудио расшифровывает за несколько секунд. Сервис неплохо справился: почти не ошибся в словах, распознал цифры, расставил знаки препинания и пробелы. Но допустил грамматическую ошибку и добавил лишнюю цифру. Пользоваться можно, но потом придется редактировать.

Результат расшифровки
Результат расшифровки

Какой сервис расшифровки выбрать

СервисЦенаКак расшифровал живой голосЗаписанный голосЗагруженный аудиофайл
Google KeepБесплатно👍 👍 👍👍 👍 👍
Сообщения «Вконтакте»Бесплатно👍👎
Transcribe1518 ₽ в год + 455 ₽ за час👍 👍 👍👍 👍 👍👍 👍 👍
Голосовой блокнотБесплатно👍 👍 👍👍 👍 👍
Telegram Premium299 ₽ в месяц👍 👍👍
SpeechText.ai15 минут бесплатно👍 👍 👍👍 👍 👍👍 👍 👍
Дмитрий КузьминКакие сервисы для расшифровки пробовали?
  • Alexey PolevНе знаю как сейчас, раньше в Google Keep можно было надиктовывать знаки препинания. "один запятая два запятая три восклицательный знак"6
  • Artur BikmukhametovА Гугл-Докс? Там тоже можно надиктовывать2
  • SGAlexey, и сейчас так же. Понимает практически все знаки, только тире заменяет дефисом. (андроид 9.0). А для пробелов надо просто сделать паузу при читке.1
  • Nick ShatunovА простое распознавание в любое поле ввода может делать Google Клавиатура4
  • Сержант ПепперДля компа в Google.Docs есть инструмент для транскрибирования аудио. Причём, ему можно скармливать как "живую" речь с микрофона, так и аудиопоток из любого проигрывателя, т.е., запускаешь аудиофайл на проигрывание и Google.Docs расшифровывает его в реальном времени. Движок там, скорее всего, такой же, как у Google Keep, но нет проблем с паузами. Единственная особенность - окно с Google.Docs должно быть постоянно активно (иметь фокус), расшифровка останавливается даже когда запускается скринсейвер.6
  • Алексей МакеевПриложение "Прямая расшифровка" от Google. Идеально для конференций, интервью, лекций. Приложение умеет определять не только слова, но и звуки. Например пишет "аплодисменты", когда они звучат3
  • Данил РадецкийДенис, для Дудя можно включить субтитры (ютуб делает автоматически) а потом нажать три точки под видео и выбрать «посмотреть расшифровку». Работает в версии для компов, с мобильного надо в браузере запросить «версию для ПК»4
  • Sergey PopovМожно, также, использовать связку "Телефон" -> "Компьютер". Т.е., производить голосовой ввод текста/данных с телефона (под Android) - в программы MS Word (Windows), MS Excel (Windows) и текстовый редактор (Windows). См., например, здесь: http://roamer55.ru/!_info/spDSW/0
  • Sergey PopovМожно, также, использовать связку "Телефон" -> "Компьютер". Т.е., производить голосовой ввод текста/данных с телефона (под Android) - в программы MS Word (Windows), MS Excel (Windows) и текстовый редактор (Windows). См., например, здесь: http://roamer55.ru/!_info/spDSW/0
  • Интернет-кафе "Навигатор"1. Надиктовываю сообщения в WhatsApp и отправляю на свой другой номер, открытый в Web WhatsApp. 2. На компе использую расширение в браузере Войснот II - Голос в текст. Оба способа дают превосходный результат, если не "жевать" текст и четко проговаривать окончания. Знаки пунктуации WhatsApp прекрасно воспринимает с голоса.2
  • Илья НенашевЕсть два бота в Телеграм: @voicybot и @VoiceMsgBot Первый мне чуть больше понравился, но оба лажают0
  • Илья НенашевДык это не ватсап, это Войснот0
  • DenisAlexey, У Google ужасное качество распознания русских текстов, особенно если это запись телефонного разговора или любая речь записанная не поставленным голосом. Вот молодой сервис по транскрибации речи: https://apihost.ru/speech-to-text его нет в обзоре. Большой плюс этого сервиса помимо качества распознания это автоматическая расстановка знаков пунктуации. Всем добра :)4
  • Александра РаснюкВот этим пользуюсь https://voicebot.su0
  • Валерий ГерасимовДенис, а зачем его смотреть, или читать?1
  • ДенискаВалерий, есть люди или темы которые интересно было б посмотреть0
  • Валерий ГерасимовДенис, ну не у Дудя же смотреть, так можно и до Гордона дойти. После его фильма о Беслане или интервью Серябрякова, как можно это убожество воспринимать?0
  • Lana GoldleonДенис, нашли кого смотреть- Дудя))) ещё и конспектировать его)4
  • Елена ЕленаГолосовой блокнот ютьюб-файлы не расшифровывает. У меня этот сервис вообще не работает, выдает ошибку0
  • Андрей ГлуховМне понравился результат распознания у iOS приложения Transcribe https://apps.apple.com/ru/app/transcribe-речь-в-текст/id12413424610
  • Елена БорголоваDenis, забыли написать, что это платный сервис.0
  • Валерий ГерасимовАлександра, так это же сервис для обратного, перевода текста в речь.0
  • Евгения Л.Добрый день! Какое-то время назад приходилось регулярно делать транскрипции англоязычных надиктовок, интервью и просто совещаний своего босса. Скажу честно, искала программы, которые могли бы помочь - где-то два года назад выяснила, что почти все делают жуткие ляпы, иногда такие, что приходилось все перепечатывать в чистую. Мало того, даже некоторые профессиональные конторы не брали у меня часть записей (а у меня пару-тройку раз был соблазн найти кого-то, кто может помочь, просто от усталости). Нет, если запись сделана в идеальном качестве, голос четкий, говорит только один человек - проблем нет. А мне иногда присылали записи с диктофона с подсевшей батарейкой, с интервью, проведенного в ресторане, где слышно, как стучат столовые приборы тех, кто говори, лучше чем их речь. Мало того, например, у моего английский с французским акцентом, часть его гостей были с японским, немецким или китайским акцентом... Так что, конечно, в наше время стали появляться неплохие программы и некоторые трюки для ускоренного создания транскриптов, но до идеала далеко. Удачи всем!0
  • Юрий ЗалакаускDenis, это же платная программа по вашей ссылке, порядка 3 руб за минуту, зачем? если есть и бесплатные0
  • Юрий Залакаускhttps://talktyper.com/ru/index.html0
  • Борис ИвановЗаказываю у фрилансеров через бот в телеге @GoTranscribe_BOT. Качество на высоте, но не бесплатно))0
  • Михаил НовосёловDenis, Спасибо, то, что искал -- расшифровка аудио файла, пусть и за деньги0
  • Семён ОвчинниковНе какие0
  • Семён ОвчинниковМне нужно приложение на телефон. Чтобы голосовые сообщения превращались в текстовые0
  • Раиль БПо моему не хватает yazapishu.ru Качество на высоте, расставляет точки и запятые, делит предложения. И цена небольшая, можно бесплатно тестить0
  • Дмитрий ГорбуновВот очень сильная нейронка - https://huggingface.co/spaces/sanchit-gandhi/whisper-jax - можно закидывать звуковые файлы и получить текст, высокая точность0
  • Роман ПетровСпасибо Дмитрий🙏🏻 Зарегался на SpeechText.Ai Жаль что у них не нашёл функцию начитать текст( Только загружать в мп3 А у меня диктофон в мп4 записывает( Но СПАСИБО🙏🏻🙏🏻🙏🏻 Пригодится0
  • Андрей СегренёвПользуюсь для расшифровки интервью сервисом https://speech2text.ru Очень качественно распознает, делит на собеседников. Есть бесплатный тариф кстати.1
  • Сергей ЗамараевДмитрий, спасибо за обзор. Но странно что так мало сервисов. В ru еще есть any2text. Там и качество отлично, файлы можно кидать любые. Даже ссылку на ютуб, ядиск. Из плюсов не нужно регаться, чтобы попробовать и получить результат. Тарификация поминутная.0
  • Полина КинзяAlex, миллион благодарностей. Быстро и бесплатно главное!!!0
  • Алексей ОстапенкоЯ наткнулся на статью на эту же тему: https://vc.ru/services/914195-7-servisov-transkribacii-sravnivayu-po-skorosti-cene-i-kolichestvu-oshibok Из нее вынес, что самый приемлемый( в смысле, что он бесплатный, хоть после 30 мин и будет работать медленно, это "Писец".0
  • Алексей ОстапенкоГолосовой Блокнот хорош тем, что при записи голоса не выключается на паузах, а работает сколько нужно, и можно сходу, нажимая на соответствующие кнопки, или на клавиатуре, проставлять знаки препинания и менять регистр заглавных букв.0
  • Алексей ОстапенкоОнлайн-программа "Писец" 30 минут переводит аудио файлы на высокой скорости, затем медленно, но бесплатно и качественно.1
  • Андрей СегренёвМне понравился speech2text.ru Дают три часа бесплатно при регистрации.0
  • Егор Балакинищу0
  • Денис МельницкийAlex, Спасибо тебе, добрый человек!0
  • DanyalAlex, Спасибо!0
  • River Hopeнужно было для работы найти сервис, который будет для меня расшифровывать кучу инфы голосом, это и интервью и лекции, а гугл транскрибатор для меня уже морально устарел и хотелось чего-то "потяжелее, надежнее и проще", чтобы сразу помогал перевести текст из аудио во внятную статью с минимумом редактуры. тк нужно было обрабатывать много аудиофайлов, бесплатное сразу отпало, лучше один раз заплатить и не париться. пробовала сначала заменять телеграмом премиум, не то (оставила тупо для стикеров в нике и запрета на голосовые ахаха) в конце концов выбрала charla-ai.ru потому что у нее был долгий бесплатный период, потом втянулась и чет пользуюсь уже несколько месяцев может кому-то тоже поможет0
  • Михаил Акуловwww.audio2edit.com бесплатно копятся очки, за сутки хватает распознать 1 текст около 35 мБ. Если видео тяжелее, можно аудио вырезать и распознать его отдельно. Только вот сейчас никак через запрет не переступить без впн, пробую подобраться пока еще.0
  • Анатолий ПанфутовПротестировал кучу российских сервисов, и результаты удивили. Из бесплатных ни один не смог нормально извлекать тексты, какие то ограничены 10-30 минут, потом заплати, другие делают кучу ошибок, примерно 20%-25% текста распознают неверное. Среди платных ошибок меньше от 5% до 15%, причем результаты расшифровки одинаковые, что говорит о том, что есть всего несколько движков распознания, но цены отличаются сильно. В итоге методом исключения по цене и качеству выбрали телеграм-бота @auvideobot при погрешности в районе 5%, по цене оказался самым доступным. Пробовал так же десктопные решения, но так и не дождался расшифровки - нужно мощное железо.14
  • МихаилЯ плохослышащий. На смартфоне установлено приложение Прямая расшифровка от гугла. Всё было хорошо (вполне сносно переводит голос в текст). А пару дней назад вдруг самопроизвольно увеличился размер шрифта на несколько пунктов. И в настройках у них это самый маленький размер. Стало жутко неудобно. А если пытаться уменьшить размер в общих системный настройках, тогда везде шрифты становятся мизерными. Что у них произошло? Зачем так увеличили размер шрифта??0
  • Борис МедниковИспользую Speech2Text. У этой программы хорошая точность распознавания и разделение на говорящих. Подходит для совещаний, переговоров и т д0
  • Александр ОкуловПосмотрите на новый офлайн транслятор прямого ввода голоса в текст. https://whispe.ru/0
  • Nick KrylasovЕсли нужно расшифровывать не очень много, но бесплатно, то, попробовав несколько средств, выбрал turboscribe.ai. Бесплатный пакет позволяет распознать 3 записи длительностью до 30 минут каждая ежедневно. Есть платный пакет за разумную цену, если нужен. Качество распознавание очень хорошее. Правда, не тестировал, когда есть заметные шумы в фоне.1
  • Марк КокоринУтонул в этих сервисах, но на speech2text.ru завис. С английским справляется отлично, запятые на месте, кто говорит, разделяет, даже если перебивают. Бесплатные минуты без регистрации, длинные файлы не режет. Часовые интервью залетают на раз. Бывает, словарик не подгонишь, но для повседневной работы то, что надо.0
Сообщество