В России создали новую метрику для оценки ИИ

Сбер и ВШЭ разработали метрику для оценки качества эмбеддингов

Фото: DC Studio / Shutterstock / Fotodom

Исследователи Центра практического искусственного интеллекта Сбербанка и НИУ ВШЭ предложили способ оценивать качество векторных представлений (эмбеддингов) без участия человека и размеченных данных.

Специализированная метрика Persistence помогает выбрать лучшую архитектуру модели и вовремя остановить ее обучение, экономя вычислительные ресурсы и ускоряя внедрение ИИ-решений в бизнес. Результаты исследования изложены в научной статье, принятой на конференцию ECIR 2026 (48-я Европейская конференция по информационному поиску) в Делфте (Нидерланды).

Отмечается, что существующие метрики предполагают линейную разделимость данных или работают только в узких сценариях. Предложенная метрика решает ключевые задачи автоматически: подбирает оптимальный размер эмбеддинга, количество слоев и функцию потерь, а также указывает, на какой эпохе обучения нужно остановиться, чтобы модель не переобучилась и не осталась сырой.

Новое решение основано на методе топологического анализа данных и превосходит зарубежные аналоги (RankMe, α-ReQ, NESum, SelfCluster) по корреляции с качеством на прикладных задачах — в финансовой аналитике, поведенческом моделировании и коллаборативной фильтрации.

Persistence оценивает качество модели без лишних задач и находит оптимальную эпоху обучения, когда эмбеддинги максимально структурированы (без переобучения или недообучения). Как рассказали в Сбере, метрика универсальна: подходит для любых бизнес-задач, а эмбеддинги не заточены под один классификатор. Persistence устойчива там, где валидация падает (временной сдвиг, сложные пайплайны), поскольку она оценивает внутреннюю геометрию эмбеддингов, а не конкретную выборку.

Ожидается, что решение позволит получать более точные рекомендации в онлайн-кинотеатрах и маркетплейсах, улучшит работу голосовых помощников и ускорит внедрение искусственного интеллекта в медицину. Кроме этого, снизится барьер применения моделей без учителя в областях с дефицитом разметки: здравоохранении, социальных науках и гуманитарных дисциплинах.

По словам директора департамента развития ИИ-решений Сбербанка Сергея Рябова, до появления специализированной метрики аналитики данных выбирали архитектуру и момент остановки обучения модели вслепую или через ресурсозатратные эксперименты с разметкой. Это требовало сотен GPU-часов и замедляло вывод моделей в прод.

«Наша метрика автоматически оценивает качество эмбеддингов по их внутренней геометрии. Обучают несколько конфигураций — Persistence указывает лучшую. Или обучают одну модель — метрика определяет эпоху остановки, избегая переобучения. В результате происходит экономия ресурсов, развиваются универсальные модели, устойчивые к сдвигам распределения данных», — пояснил он.

В России создали новую метрику для оценки ИИ

Последние новости