Mozilla обновила движок распознавания речи DeepSpeech — датасеты подготовлены для обучения распознаванию на 40 языках. В отличие от движков Google и Яндекса, движок Mozill работает на локальном компьютере, а не в облаке. Код оптимизирован таким образом, чтобы для распознавания хватало производительности даже мини-компьютера Raspberry Pi 4.
DeepSpeech значительно проще традиционных систем и при этом обеспечивает более высокое качество распознавания при наличии постороннего шума. В разработке не используются традиционные акустические модели и концепция фонем, вместо них применяется хорошо оптимизированная система машинного обучения на основе нейронной сети, которая позволяет обойтись без разработки отдельных компонентов для моделирования различных отклонений, таких как шум, эхо и особенности речи.
Обратной стороной подобного подхода является то, что для получения качественного распознавания и обучения нейронной сети движок DeepSpeech требует большого объёма разнородных данных, надиктованных в реальных условиях разными голосами и при наличии естественных шумов. Сбором подобных данных занимается созданный в Mozilla проект Common Voice, предоставляющий проверенный набор данных с 780 часами на английском языке, 325 на немецком, 173 на французском и 27 часами на русском.
— рассказал Opennet.ru.