STT — Исследование вариантов

Дата: 2026-04-22. Контекст: выбор STT для сервера без GPU, русский язык.

Что уже есть

Vosk small ru 0.22 — работает, CPU, офлайн. WER ~22–32% в зависимости от источника. Лицензия Apache 2.0.

Варианты

faster-whisper ✅ РЕКОМЕНДУЕТСЯ

Порт Whisper от OpenAI через CTranslate2. До 4x быстрее оригинала на CPU. WER ~5–15% (оценочно для русского, в 2+ раза лучше Vosk). CPU-only работает. Лицензия MIT. Полностью локально. Модели: tiny (~39M параметров) — скорость, base (~74M) — баланс. Репо: https://github.com/SYSTRAN/faster-whisper

whisper.cpp

C/C++ реализация Whisper. CPU-only, чуть медленнее faster-whisper. То же качество, MIT лицензия. Хорош если нужен C-биндинг. Репо: https://github.com/ggml-org/whisper.cpp

Silero STT

Хорошая поддержка русского, лёгкая, CPU. WER ~15–20%. Лицензия CC-BY-NC (некоммерческое). Есть TTS в той же экосистеме.

Handy STT

Легковесное локальное приложение. Поддержка русского неизвестна — вероятно только латинские языки. Требует проверки. Не рекомендую без проверки.

Parakeet (NVIDIA NeMo) ❌

NVIDIA, 25 языков включая русский, высокое качество. Но требует GPU. На CPU неприемлемо медленно. Не подходит.

Вывод

Переходить с Vosk на faster-whisper (модель base). Качество радикально лучше, CPU, офлайн, MIT. STT-задача снимается с ожидания инфраструктурного решения — faster-whisper это и есть решение.