Как бесплатно перевести аудио в текст: пошаговая инструкция

Nick Anisimov
3 min readSep 7, 2020

--

По данным сервиса Internet Live Stats порядка 80-ти процентов существующей информации в сети Интернет представляет собой текст. Звуковая информация расположилась только на третьей строчке рейтинга. Несмотря на то, что популярность аудиофайлов, как источника информации, неуклонно растет, предварительная расшифровка аудио в текст — это необходимый аттрибут для распространения контента в сети Интернет. Конвертация аудио в текст позволит не только обеспечить легкий доступ к информации для пользователя (поиск, навигация и т.п.), но и гарантирует приятный бонус в виде дополнительного траффика, так как большинство популярных поисковых систем в первую очередь обращают внимание на текстовое содержимое страниц сайта.

Процесс перевода и конвертации аудио в текст носит название транскрибация.

Процесс транскрибации аудио или видеофайлов в текст занимает время и требует множества усилий. К счастью, существует ряд программ, использующих технологии распознавания речи (speech to text), которые позволят вам транскрибировать аудио в текст в течении нескольких минут. Если ваши данные на английском языке, то задача упрощается. Достаточно одного запроса в Google и у вас будет выбор из множества сервисов. Но что делать, если нужно транскрибировать аудиофайл на русском языке? Большинство программ если и поддерживают русский язык, то качество распознавания речи оставляет желать лучшего. В данной статье, я расскажу о SpeechText.AI — программе перевода аудио в текст, которой пользуюсь сам и которая отлично справляется с аудио и видео на русском языке.

Расшифровка аудио в текст

1. Создаем бесплатный аккаунт в сервисе распознавания речи.

2. Программа поддерживает различные типы файлов. Поэтому в ней можно конвертировать в текст как обычные mp3 файлы, так и более редкие форматы аудиозаписей, например, в форматах ogg, m4a, flac, snd, aif и т.д. Если вдруг какой-то из форматов не поддерживается, то можно воспользоваться сервисом Online-Audio-Converter.com и сохранить файл в формате mp3.

3. Принцип работы сервиса прост: вы загружаете необходимые аудио или видео файлы, указываете язык транскрибации аудио и тип файла (допустим интервью или подкаст). Я использую General, который по умолчанию. Программа также может переводить речь в текст с учетом домена (профессиональной области). В таком режиме алгоритм работы SpeechText.AI уделяет особое внимание редким тематическим словам. Данная функция должна быть полезна, если ваши записи представляют собой какой-то специализированный контент со сложной лексикой. Например, научная лекция, интервью в сфере высоких технологий, запись выступления на медицинской конференции.

4. Нажатие кнопки ‘Transcribe’ запускает процесс преобразования аудио в текст. Получасовую аудиозапись сервис обрабатывает примерно 10 минут.

5. После окончания расшифровки можно сразу загрузить результат транскрибации, нажав на иконку загрузки файла . С учетом того, что процесс распознавания речи автоматический и может содержать ошибки, советую перейти в режим аудиоредактора. В данном режиме обеспечивается синхронизация аудио и текста, что позволяет быстро проверить полученную транскрипцию аудио и исправить ошибки. По моим тестам точность распознавания голоса у SpeechText.AI порядка 85–90%. Ошибки встречаются, но процесс транскрибации существенно упрощается.

Ниже пример результов, которые можно получить. Сохранить результаты можно в разных форматах (docx, pdf, txt, html). Если нужно конвертировать видео в текст для создания субтитров, то программа поддерживает экспорт в форматах srt и vtt.

Искусственный интеллект все лучше и лучше справляется с задачей перевода речи в текст. Очевидно, что в ближайшее время качество работы автоматизированных сервисов распознавания речи будет только расти и мы полностью избавимся от ручного труда в области транскрибации аудио или видео.

--

--