Российские ученые создали открытую среду для контекстного обучения с подкреплением

Ученые из T-Bank AI Research представили среду для исследований XLand-MiniGrid

Фото: Headway / Unsplash

Ученые из лаборатории исследований искусственного интеллекта T-Bank AI Research и Института AIRI при участии студентов из МФТИ, Сколтеха и Иннополиса создали первую открытую среду для исследований и разработки алгоритмов в области контекстного обучения с подкреплением — XLand-MiniGrid.

В Т-Банке отметили, что XLand-MiniGrid —это опубликованная в открытом доступе для исследователей по всему миру виртуальная среда, в которой искусственный интеллект (ИИ) обучается принимать решения и выполнять новые действия. Такая среда особенно полезна в таких областях, как персонализированные рекомендации, управление роботами и автономными транспортными средствами, где требуется мгновенная адаптация к новым условиям.

XLand-MiniGrid уже получила признание в международном исследовательском сообществе.

Ранее исследователи сталкивались с ограничениями в существующих средах для контекстного обучения с подкреплением. Корпоративные среды крупных компаний, таких как Google DeepMind, закрыты для внешних пользователей и используются только для внутренних нужд.

Также в отличие от более медленных аналогов, XLand-MiniGrid выполняет миллиарды операций в секунду. В таких средах благодаря высокой вариативности и количеству действий можно собирать огромные датасеты. Например, в XLand-MiniGrid собрано 100 миллиардов примеров действий искусственного интеллекта в 30 тысячах задач.

«Мы пришли в область контекстного обучения с подкреплением, когда она еще зарождалась, и поэтому не нашли ни одного подходящего инструмента для оценки новых идей. Стало понятно, что это проблема для многих специалистов, а значит, она должна быть решена одной из первых. Поэтому появился XLand-MiniGrid», — рассказал исследователь научной группы AI Alignment лаборатории исследований искусственного интеллекта T-Bank AI Research Вячеслав Синий.

В свою очередь руководитель научной группы «Адаптивные агенты» Института AIRI Владислав Куренков подчеркнул, что контекстное обучение с подкреплением — одна из самых многообещающих областей науки в сфере ИИ.

«Оно позволяет получать агентов, адаптирующихся к новым сценариям на лету на основе внешнего фидбэка. Среда, которую мы разработали, позволит значительно ускорить сравнение и создание новых алгоритмов в этой области», — заключил он.

Лента добра деактивирована.
Добро пожаловать в реальный мир.
Бонусы за ваши реакции на Lenta.ru
Как это работает?
Читайте
Погружайтесь в увлекательные статьи, новости и материалы на Lenta.ru
Оценивайте
Выражайте свои эмоции к материалам с помощью реакций
Получайте бонусы
Накапливайте их и обменивайте на скидки до 99%
Узнать больше