Дата: 2026-04-22. Контекст: выбор STT для сервера без GPU, русский язык.
Vosk small ru 0.22 — работает, CPU, офлайн. WER ~22–32% в зависимости от источника. Лицензия Apache 2.0.
Порт Whisper от OpenAI через CTranslate2. До 4x быстрее оригинала на CPU. WER ~5–15% (оценочно для русского, в 2+ раза лучше Vosk). CPU-only работает. Лицензия MIT. Полностью локально. Модели: tiny (~39M параметров) — скорость, base (~74M) — баланс. Репо: https://github.com/SYSTRAN/faster-whisper
C/C++ реализация Whisper. CPU-only, чуть медленнее faster-whisper. То же качество, MIT лицензия. Хорош если нужен C-биндинг. Репо: https://github.com/ggml-org/whisper.cpp
Хорошая поддержка русского, лёгкая, CPU. WER ~15–20%. Лицензия CC-BY-NC (некоммерческое). Есть TTS в той же экосистеме.
Легковесное локальное приложение. Поддержка русского неизвестна — вероятно только латинские языки. Требует проверки. Не рекомендую без проверки.
NVIDIA, 25 языков включая русский, высокое качество. Но требует GPU. На CPU неприемлемо медленно. Не подходит.
Переходить с Vosk на faster-whisper (модель base). Качество радикально лучше, CPU, офлайн, MIT. STT-задача снимается с ожидания инфраструктурного решения — faster-whisper это и есть решение.