Компания MWS Cloud, входящая в «МТС Web Services», объявила о запуске платформы Inference Valve для внедрения и эксплуатации моделей искусственного интеллекта. Решение предназначено для вывода в продакшн обученных ML-моделей, больших языковых моделей (LLM) и моделей компьютерного зрения (CV). Платформа позволяет развертывать модели на инфраструктуре компании, подключать к IT-системам через стандартные API, масштабировать, обновлять и мониторить их работу.
Узнайте больше в полной версии ➞Inference Valve позволяет автоматизировать процессы упаковки, развертывания и сопровождения моделей. По информации компании, применение платформы может снизить до 70 процентов операционную нагрузку на команды. После запуска продукта MWS Cloud вышла на рынок платформ инференса AI-моделей, объем которого превышает 15 миллиардов рублей.
CV-модели на платформе могут использоваться для анализа видеопотоков, распознавания объектов, сцен и действий, а также для классификации медицинских изображений. ML- и LLM-модели — для генерации и структурирования текстов, анализа данных, прогнозирования маркетинговых и коммерческих показателей, а также в HR-сервисах для автоматического ответа на часто задаваемые вопросы. Также поддерживаются голосовые модели — для синтеза и анализа речи, включая сценарии использования в колл-центрах.
Платформа поддерживает развертывание как собственных обученных моделей, так и опенсорсных решений. Inference Valve интегрируется с ML-платформами и инструментами CI/CD, обеспечивая сквозной процесс — от обучения до внедрения и обновления моделей.
Платформа доступна в частном облаке MWS Cloud, на серверах заказчика (on-prem), а также в составе программно-аппаратных комплексов, в том числе в закрытом контуре с ограниченным доступом к внешним сетям.
После запуска кластера специалисты загружают артефакты модели (например, ONNX, TorchScript) в систему, которая автоматически формирует контейнер и публикует конечную точку доступа (endpoint). Платформа поддерживает работу с несколькими моделями одновременно, управление версиями, распределение вычислительных ресурсов, маршрутизацию трафика и масштабирование под нагрузку на CPU и GPU.
В платформе реализован сбор метрик задержек и пропускной способности, мониторинг доступности, система оповещений и дашборды. Доступна телеметрия качества, включая отслеживание дрейфа данных и моделей, контроль целевых метрик и уведомления при их отклонении. Интеграция с Prometheus, Grafana и журналирование запросов обеспечивают возможности для аудита и анализа инцидентов.
«Без активного внедрения искусственного интеллекта практически невозможно рассчитывать на лидерство на рынке. Только в MWS Cloud спрос на инфраструктуру для ИИ за год вырос в два раза. При этом недостаточно просто обучить AI-модель. Ее еще нужно интегрировать в бизнес-процессы компании, наладить ее бесперебойную работу, отслеживать успешность ее работы. Inference Valve позволяет сделать это из коробки с помощью нескольких простых команд. С ее помощью LLM и CV-модели в десятки раз быстрее интегрируются с IT-системами компании, операционная нагрузка на ML-команды при эксплуатации моделей снижается на 70 процентов, степень автоматизации CI/CD повышается более чем на треть, а затраты на GPU снижаются более чем на 15 процентов», — рассказал исполнительный директор «МТС Web Services», CEO MWS Cloud Игорь Зарубинский.