Специалисты Центра практического искусственного интеллекта Сбера совместно с учеными Института AIRI и Сколтеха разработали метод, позволяющий нейросетям обрабатывать большие объемы информации без потери качества и перерасхода вычислительных мощностей. Результаты исследования представлены на международной конференции EACL 2026 в Марокко.
Проблема памяти в ИИ-моделях возникает при работе с длинными диалогами или большими массивами документов. При стандартном подходе, когда в контекст нейросети помещается вся история переписки, после достижения определенного объема модель может терять информацию, находящуюся в середине. Это явление ученые называют Lost in the Middle. Дополнительным ограничением выступает высокое потребление видеопамяти при обработке миллионов токенов.
Для оптимизации используется сжатие информации с переводом в векторные представления, что снижает нагрузку на вычислительные ресурсы. Однако при превышении порога сжатия возникает риск необратимого искажения данных — так называемое переполнение токенов (token overflow).
Российские исследователи предложили решение в виде легкого обучаемого классификатора, который выступает детектором качества сжатых токенов. Алгоритм проверяет данные до их поступления в языковую модель. При обнаружении искажения смысла классификатор блокирует передачу испорченного контекста. В этом случае система может использовать оригинальный несжатый текст или обратиться к актуальным документам. Благодаря этому некорректные данные не участвуют в генерации ответов, пользователи получают достоверную информацию, а компании экономят вычислительные ресурсы.
Новый метод уже применен при обновлении флагманской модели Сбера GigaChat Ultra. ИИ-помощник теперь способен запоминать ключевые факты о пользователе и использовать их в дальнейшем общении, делая взаимодействие более персонализированным.
Разработка дает бизнесу возможность снижать издержки при внедрении ИИ в корпоративные поисковики, ассистенты и боты поддержки. Для научного сообщества создана методология определения границы сжимаемости текста и отслеживания момента переполнения токенов.
«Представьте, что нужно пересказать итоги трехчасового стратегического совещания парой фраз. Ключевые тезисы вы выделите, но высок риск упустить критически важные нюансы или исказить смысл», — рассказал директор Центра практического искусственного интеллекта Сбера Николай Тиден.
Топ-менеджер пояснил, что аналогично работает механизм сжатия контекста в языковых моделях. Разработанное решение выполняет функцию защитного механизма, позволяя автоматически определять порог, за которым краткость ведет к ошибкам и потере устойчивости модели. По словам Тидена, для бизнеса это означает новый уровень надежности искусственного интеллекта, сокращение издержек и повышение точности принятия решений.

