На международной конференции ACL 2025 — одной из ведущих мировых площадок в области компьютерной лингвистики — исследователи Сбера представили результаты научной статьи «Семейство GigaChat: эффективное моделирование русского языка с помощью архитектуры смеси экспертов» (GigaChat Family: Efficient Russian Language Modeling Through Mixture of Experts Architecture).
В ней рассказывается о применении архитектуры «смесь экспертов» (Mixture of Experts, MoE), которая позволяет модели работать подобно команде специалистов, где для каждой задачи активируются только необходимые части системы. В результате GigaChat показывает двукратное преимущество в скорости и экономичности по сравнению с аналогами при сохранении высокого качества работы.
В Сбере отмечают, что разработка имеет особое значение для российского рынка, ведь раньше не существовало качественных языковых моделей, созданных именно для русского языка и учитывающих его культурные и лингвистические особенности. GigaChat открывает новые возможности для бизнеса — от автоматизации клиентской поддержки до генерации контента.
Младшая из семейства моделей уже доступна для свободного использования. Особого внимания заслуживают разработанный исследователями токенизатор, оптимизированный именно для русского языка, который позволяет точнее управлять тематикой ответов искусственного интеллекта (AI).
«Российские компании получают доступную и эффективную технологию для создания чат-ботов, автоматизации текстовых задач и разработки ИИ-сервисов на русском языке. Для ученых открыты веса моделей и код, что ускоряет исследования, а стартапы могут создавать AI-продукты без больших затрат. Это важный шаг в развитии русскоязычного искусственного интеллекта», — отметил технический директор GigaChat Сбербанка Федор Минькин.