GigaChat занял первое место в бенчмарке RuQualBench

GigaChat Ultra допустил 0,2 ошибки на тысячу токенов в бенчмарке RuQualBench

Российская модель GigaChat Ultra заняла первое место в открытом независимом бенчмарке RuQualBench, который измеряет качество генерации текста на русском языке. На это обратило внимание издание Rozetked. Флагманская нейросеть Сбера опередила такие международные нейросети, как Claude Opus 4.5 (Anthropic), Deepseek V4 Pro, GPT-5, Gemini 3 Pro и ряд других моделей, допустив всего 0,2 ошибки на 1000 токенов.

Как уточняет Rozetked, качество генерации на русском языке напрямую определяет применимость модели в реальных задачах: деловой переписке, создании контента, клиентских сервисах и документообороте. В чувствительных сферах, таких как медицина, юриспруденция или финансы, требования к грамотности особенно высоки.

RuQualBench создан для выявления слабых мест при генерации русского текста. Модели выполняют задания двух типов: свободный диалог на бытовые темы и развернутые задачи на написание художественных текстов. В обоих случаях модель генерирует текст свободно, без выбора из готовых вариантов. Результаты оценивает модель-судья Gemini 2.5 Pro. Тест прогоняется минимум трижды, код и методология открыты.

Отмечается также, что в обучающих данных большинства глобальных моделей русскоязычный корпус занимает незначительную долю. Русский язык морфологически сложнее английского: шесть падежей, три рода, разветвленная система глагольных форм. Модели без специализации регулярно спотыкаются именно здесь.

GigaChat занял первое место в бенчмарке RuQualBench

Последние новости