DeepSpeech прекращен (2020) ( github.com/mozilla )
Его прекратили поддерживать 5 лет назад — не знаю, почему архивация репозитория заняла так много времени.
https://discourse.mozilla.org/t/future-of-deepspeech-stt-aft…
Возможно, URL-адрес OP можно изменить на https://www.phoronix.com/news/Mozilla-DeepSpeech-Discontinue…
Я бы изменил, но эта заявка уже прошла окно редактирования. Возможно, dang или tomhow увидят это и изменят для меня 🙂
Тогда комментарии следует перенести сюда: https://news.ycombinator.com/item?id=44380572
Вам следует написать им об этом по электронной почте!
Представьте себе альтернативную временную линию, в которой Mozilla назвала бы этот проект «FreeSpeech» как бесплатное и открытое решение TTS.
Похоже, что команда, работавшая над DeepSpeech, затем работала над coqui-ai STT https://github.com/coqui-ai/STT и теперь рекомендует использовать OpenAI Whisper ( https://github.com/openai/whisper )
Я использовал модель Nvidia parakeet, она лучше, чем Whisper v3 большой и маленький. Поддерживает только английский язык.
https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2
Нужен ли ему более новый графический процессор? Или он может работать только на центральном процессоре?
Будет ли он работать на Raspberry Pi?
Если вам нужен режим реального времени, то нужен GPU, но его может быть недостаточно. CPU немного медленнее, но работает нормально.
Поищите более быстрые модели шепота или очищенного шепота, более мелкие модели работают довольно хорошо, но плохо работают за пределами английского языка. Если вас интересует другой язык, лучше настроить его более точно (у HuggingFace есть огромное количество точно настроенных моделей шепота).
Я по-прежнему предпочитаю Festival, он быстрый, есть во всех репозиториях пакетов, и мне не нравятся автоматизации с реалистичными голосами.
Они противоположны: DeepSpeech — это преобразование речи в текст, а Festival — это преобразование текста в текст.
Source: news.ycombinator.com