Исследователи Сбера нашли новый способ повысить качество распознавания русского языка AI-моделями, в новом методе используются целевые переменные из CTC-модели распознавания (Connectionist Temporal Classification), благодаря чему формируется более семантические представления данных.
Узнайте больше в полной версии ➞Исследование представили на международной конференции Interspeech 2025 в научной статье GigaAM: Efficient Self-Supervised Learner for Speech Recognition.
В ходе тестов нового метода количество ошибок распознавания удалось снизить на 50%.
Как отметил технический директор GigaChat Сбера Федор Минькин, в новом методе фокус смещен на семантические представления.
«Это не просто инкрементальное улучшение метрики, а качественный скачок. Новая архитектура демонстрирует высокую эффективность и гибкость. Она ломает барьеры, которые долгое время сдерживали развитие ASR-систем для языков с малым количеством данных», — сказал он.
Минькин добавил, что метод может стать новым стандартом для индустрии, ускоряя прогресс и закладывая основу для следующего поколения голосовых интерфейсов.