Ученые из лаборатории исследований искусственного интеллекта T-Bank AI Research и Института AIRI при участии студентов из МФТИ, Сколтеха и Иннополиса создали первую открытую среду для исследований и разработки алгоритмов в области контекстного обучения с подкреплением — XLand-MiniGrid.
В Т-Банке отметили, что XLand-MiniGrid —это опубликованная в открытом доступе для исследователей по всему миру виртуальная среда, в которой искусственный интеллект (ИИ) обучается принимать решения и выполнять новые действия. Такая среда особенно полезна в таких областях, как персонализированные рекомендации, управление роботами и автономными транспортными средствами, где требуется мгновенная адаптация к новым условиям.
XLand-MiniGrid уже получила признание в международном исследовательском сообществе.
Ранее исследователи сталкивались с ограничениями в существующих средах для контекстного обучения с подкреплением. Корпоративные среды крупных компаний, таких как Google DeepMind, закрыты для внешних пользователей и используются только для внутренних нужд.
Также в отличие от более медленных аналогов, XLand-MiniGrid выполняет миллиарды операций в секунду. В таких средах благодаря высокой вариативности и количеству действий можно собирать огромные датасеты. Например, в XLand-MiniGrid собрано 100 миллиардов примеров действий искусственного интеллекта в 30 тысячах задач.
«Мы пришли в область контекстного обучения с подкреплением, когда она еще зарождалась, и поэтому не нашли ни одного подходящего инструмента для оценки новых идей. Стало понятно, что это проблема для многих специалистов, а значит, она должна быть решена одной из первых. Поэтому появился XLand-MiniGrid», — рассказал исследователь научной группы AI Alignment лаборатории исследований искусственного интеллекта T-Bank AI Research Вячеслав Синий.
В свою очередь руководитель научной группы «Адаптивные агенты» Института AIRI Владислав Куренков подчеркнул, что контекстное обучение с подкреплением — одна из самых многообещающих областей науки в сфере ИИ.
«Оно позволяет получать агентов, адаптирующихся к новым сценариям на лету на основе внешнего фидбэка. Среда, которую мы разработали, позволит значительно ускорить сравнение и создание новых алгоритмов в этой области», — заключил он.