Сбер создал детектор ошибок для защиты ИИ от искажения данных

Сбер, AIRI и Сколтех представили метод защиты ИИ от потери смысла при сжатии

Специалисты Центра практического искусственного интеллекта Сбера совместно с учеными Института AIRI и Сколтеха разработали метод, позволяющий нейросетям обрабатывать большие объемы информации без потери качества и перерасхода вычислительных мощностей. Результаты исследования представлены на международной конференции EACL 2026 в Марокко.

Проблема памяти в ИИ-моделях возникает при работе с длинными диалогами или большими массивами документов. При стандартном подходе, когда в контекст нейросети помещается вся история переписки, после достижения определенного объема модель может терять информацию, находящуюся в середине. Это явление ученые называют Lost in the Middle. Дополнительным ограничением выступает высокое потребление видеопамяти при обработке миллионов токенов.

Для оптимизации используется сжатие информации с переводом в векторные представления, что снижает нагрузку на вычислительные ресурсы. Однако при превышении порога сжатия возникает риск необратимого искажения данных — так называемое переполнение токенов (token overflow).

Российские исследователи предложили решение в виде легкого обучаемого классификатора, который выступает детектором качества сжатых токенов. Алгоритм проверяет данные до их поступления в языковую модель. При обнаружении искажения смысла классификатор блокирует передачу испорченного контекста. В этом случае система может использовать оригинальный несжатый текст или обратиться к актуальным документам. Благодаря этому некорректные данные не участвуют в генерации ответов, пользователи получают достоверную информацию, а компании экономят вычислительные ресурсы.

Новый метод уже применен при обновлении флагманской модели Сбера GigaChat Ultra. ИИ-помощник теперь способен запоминать ключевые факты о пользователе и использовать их в дальнейшем общении, делая взаимодействие более персонализированным.

Разработка дает бизнесу возможность снижать издержки при внедрении ИИ в корпоративные поисковики, ассистенты и боты поддержки. Для научного сообщества создана методология определения границы сжимаемости текста и отслеживания момента переполнения токенов.

«Представьте, что нужно пересказать итоги трехчасового стратегического совещания парой фраз. Ключевые тезисы вы выделите, но высок риск упустить критически важные нюансы или исказить смысл», — рассказал директор Центра практического искусственного интеллекта Сбера Николай Тиден.

Топ-менеджер пояснил, что аналогично работает механизм сжатия контекста в языковых моделях. Разработанное решение выполняет функцию защитного механизма, позволяя автоматически определять порог, за которым краткость ведет к ошибкам и потере устойчивости модели. По словам Тидена, для бизнеса это означает новый уровень надежности искусственного интеллекта, сокращение издержек и повышение точности принятия решений.

Сбер создал детектор ошибок для защиты ИИ от искажения данных

В Сербии возле газопровода, по которому в Венгрию поставляют российский газ, нашли взрывчатку. Причастна ли к этому Украина?

Спасатель признался в изнасиловании знаменитой актрисы

Школьница совершила ограбление с тремя друзьями-подростками

Российские бренды столкнулись с проблемами из-за войны в Иране

Названо лучшее упражнение для плоского живота

Минобороны выпустило заявление после мощного налета ВСУ на российский портовый город

Названа самая подешевевшая рыба в России

Россиянин поплатился жизнью за замечание возлюбленной

Попадание беспилотника ВСУ в жилой дом в портовом российском городе попало на видео

Европу предупредили о риске использования Украины