Расшифровка — это всегда тягомотина и трата времени. Некоторые журналисты даже ищут «литературных рабов», чтобы за небольшую сумму расшифровывали диктофонные записи и печатали текст. Но порой без личного участия в этой работе не обойтись никак: то качество записи не очень, то посторонние шумы, разговор на фоне и т.д.
Как быть в таком случае?
Журналист Юлий Макаров делится своим опытом:
«Как только я осознал, что Гугл неплохо расшифровывает мои слова, которые я надиктовываю ему голосом в поиск, подумалось: и зачем тогда париться и тратить часы на расшифровки диктофонных записей? Может, можно и эту работу Гуглу скормить?
Как правило, нам не нужна дословная расшифровка речи собеседника. Достаточно знать, в какое время о чём он говорил, чтобы затем прицельно слушать лишь те части записи, что достойны превращения в текст.
Гугление по теме «преобразование в текст из аудиофайла» ничего толком не дало. Может, плохо искал. Тогда я попробовал просто прислонить смартфон к динамику ноутбука и включить на ноуте «голосовой поиск» в Гугле. Качество распознавания настолько разочаровало, что даже доставило. Вот фрагмент:
«Поликлиники поликлиники завод тыщ тыщ еще и компания тыщ тыщ тыщ…»
Словно Гугл догадался о моих попытках «нагнуть систему» и стал в ответ издеваться. Тогда я пошёл дальше гуглить и наткнулся на одну статью, которая, собственно, и дала озарение.
Оказывается, как только ролик заливается на YouTube, система начинает сама искать в нём речь, угадывать язык, на котором речь произнесена, и расшифровывать эту речь. Расшифровка, причём с хронометражем (!) доступна после клика на небольшую иконку снизу видео, которую я раньше не замечал.
Я проверил свои ролики. И впервые не только просмотрел их, но и прочёл. Например, вот как выглядит в тексте фрагмент моей недавней стычки с представителем ГИБДД:
«3:49 как же вам скажу что я не нашли опечатку
3:51 дальше больше офтальмологи не
3:53 расстрел восстанием олег сапрыкин однако
3:55 он не смог потому что я не буду мамой»
На первый взгляд — бред. И не о каком «расстреле восстанием» с привлечением Олега Сапрыкина, конечно, мы не говорили. Но при знании контекста, каждая четвертая-пятая фраза для расшифровщика окажется узнаваемой. «Как же я вам скажу, что…» — и я сразу вспоминаю, в каком контексте слова говорились. Чтобы уточнить этот момент речи, остается выставить видео на точку указанного хронометража и будет, как говорили деды, бинго!
Решил для эксперимента залить на ютуб запись важного телефонного разговора-интервью, который реально надо расшифровать. В видеоредакторе выставил в качестве видеоряда черный фон с минимальным разрешением (чтобы файл не утяжелять).
Залил полученный ролик на YouTube. Сделал его доступным только по ссылке. С утра проснулся, а титры уже готовы. И эти титры упрощают навигацию по звуковому файлу. Плюс бонусом получаю эффект «облачного сервиса», когда этот файл можно послушать с любого устройства, лишь кликнув на ссылку.
Итоги: данный метод стал неотъемлемой частью технологического процесса моей журналистской работы. Конечно, его стоит усовершенствовать, но и в таком варианте он весьма продуктивен. Для большей эффективности этого метода можно заливать записи оптом, и пусть потом ждут своего часа.» (с)
Journal information