Завершилась 18 Международная научная конференция по рекомендательным системам ACM RecSys 2024. Свои исследования представили ученые со всего мира. Россия вошла в топ-10 стран по количеству заявленных работ. При этом шесть из семи российских научных статей опубликовал Сбер вместе с научным партнером — Институтом AIRI. Кому и зачем нужны рекомендательные онлайн-системы? Что открыли российские ученые и как это поможет стране и людям? Об этом «Лента.ру» поговорила с управляющим директором Центра инструментов машинного обучения Лаборатории искусственного интеллекта Сбербанка Максимом Савченко.
«Лента.ру»: В прошлом году российские ученые тоже принимали участие в конференции. Что изменилось за это время?
Максим Савченко: На RecSys мы представляем доклады с 2021 года, и очень заметно, как растет количество статей китайских исследователей. Если раньше в этой сфере искусственного интеллекта лидировали учёные из США, в этом году коллеги из Китая с ними практически сравнялись.
Нам тоже есть чем гордиться. Три года назад статья нашей лаборатории на RecSys была единственной от России. В этом году наша страна представила уже семь научных трудов, в шести из которых участвовали исследователи Сбера и Института AIRI. По количеству поданных работ Россия вошла в топ-10 стран, обойдя Францию, Австрию и Канаду. А одна из наших статей попала в число лучших.
Еще одно наблюдение: на подобных конференциях всё большую роль играют крупные технологические компании. Организаторы начинают под них подстраиваться, появляются новые воркшопы с прикладными тематиками, количество принятых статей на индустриальных треках также растет и т. д. Научные конференции трансформируются в научно-технические, растет фокус на применение открытий в реальном мире.
Кому и как помогут открытия ученых Сбера?
Исследования Лаборатории искусственного интеллекта Сбера в первую очередь решают актуальные задачи бизнеса. За основу взят подход НИИ космической индустрии времен Королева и Келдыша, который мы адаптировали к современным условиям.
Например, наша статья, попавшая в список лучших на конференции, была посвящена вопросам оценки качества и повышения эффективности последовательных рекомендаций (sequential recsys), которые позволяют предсказывать возможные будущие покупки человека на основе предыдущих. Благодаря этому пользователи онлайн-сервисов получают подходящие рекомендации по товарам, услугам или аудио контенту. Такой алгоритм не будет после покупки удочки полгода предлагать вам еще одну, а скорее посоветует приобрести походную одежду, надувную лодку или подходящую леску.
Для создания подборок рекомендаций сейчас активно и с большой результативностью используются специализированные большие языковые модели. Они построены на тех же технологиях, что и GigaChat или ChatGPT, но обучаются на специализированных задачах вроде анализа потребностей клиентов. Идея в том, что в какой-то мере жизненные траектории клиентов определяются их же действиями.
Например, если у человека в России есть автомобиль, ему точно потребуется зимняя резина (если, конечно, он не пользуется машиной только в теплый сезон). При решении таких задач важно не забывать, что будущее не предопределено, но некоторые закономерности поведения клиентов можно выделить, и это полезно и взаимовыгодно (win-win) как для бизнеса, так и для клиента.
Вторая интересная статья, которую мы подготовили вместе с коллегами из AIRI и Сколтеха, касается развития федеративного машинного обучения. Наш подход позволяет повышать качество ряда моделей без прямого обмена данными клиентов. Дело в том, что для обучения искусственного интеллекта чаще всего нужны не сами данные (доход человека, история его болезни или другое), а информация об этих данных, которую в науке называют метаданными.
Кроме того, если такие метаданные зашифровать, при некоторых условиях обученная на них модель будет неотличима от построенной на исходных данных. Это очень интересное направление, которое требует тесного сотрудничества самых разных специалистов — от экспертов по машинному обучению до криптографов.
Остальные статьи, которые мы представили на конференции, также имели прикладной характер. И готовили мы их с активным вовлечением исследователей из реального бизнеса.
Какую пользу людям могут принести исследования в области рекомендательных систем?
Помимо очевидной, например, экономии времени при покупках и грамотных подсказок, рекомендации могут сэкономить экономике массу ресурсов. Один из докладов конференции касался того, как на основе анализа покупок на маркетплейсах понять, а что, собственно, необходимо клиентам, чтобы выработать описание и даже техническое задание на производство необходимых товаров.
Помните, как в комедии Леонида Гайдая герой Юрия Никулина спрашивает: «А у вас нет такого же, но с перламутровыми пуговицами?». В наше время благодаря искусственному интеллекту следующая партия халатов была бы уже с перламутровыми пуговицами, если это действительно необходимо клиентам.
Также важно понимать, что прогресс в одной области машинного обучения нередко помогает лучше решать задачи в другой. Например, прорывы в рекомендательных системах могут улучшить качество постановки медицинских диагнозов с учетом истории болезней человека. Удивительно, но математика в обоих случаях оказывается схожей: и постановка диагноза на основе истории болезни, и задачи рекомендаций основываются на аналогичных математических принципах.
Есть ли отличия между российскими и зарубежными подходами в исследованиях?
Методология универсальна. Однако есть специфика. Если немалая часть статей в Китае, США и странах Европы идет от крупных корпораций, активно инвестирующих в науку, в России огромную роль играют банки. За границей это вызывает удивление, так как в большинстве стран финансовые организации — крайне консервативные структуры.
Второе отличие: некоторые подходы, востребованные на глобальном рынке, в нашей стране не всегда нужны. Если для рынка с миллиардом пользователей нередко имеет смысл оптимизировать метрики второго или даже третьего порядка (т. е. величины, от которых зависит основная бизнес-метрика), то, например, при 100 миллионов клиентов это, скорее всего, не окупится. Чтобы исследования приносили пользу, в первую очередь надо решать собственные задачи.
Конечно, у мировых техногигантов размах инвестиций в науку и технологии намного выше. Но Россия, если говорить о прошедшей конференции, уже вошла в десятку стран по докладам, и я надеюсь, что наши позиции в рейтинге будут только улучшаться. К этому есть все предпосылки. Например, в этом году на масштабном соревновании GrandPrix по AutoML наша команда со своим решением LightAutoml обошла Amazon и H2O. Создавать хорошие технологии в России точно умеют. Но инновации должны превращаться в коммерчески успешные продукты, и здесь нам надо поработать.
Что нужно ученому, чтобы эффективно проводить такие исследования?
Нужны компетенции, идеи и сильная команда. На передовых конференциях хорошо видно, что время одиночек прошло. Еще нужна тесная связь науки с практикой. Именно она выступает источником оригинальных задач и дает необходимую обратную связь. Также необходимы данные и бенчмарки, ведь идеи надо на чем-то проверять и как-то оценивать. Чтобы делать все перечисленное, требуются вычислительные ресурсы. И чем дальше, тем больше.
В конечном итоге на все это нужны инвестиции. Поэтому вопрос экономической эффективности исследований сейчас беспокоит не только менеджеров корпораций, но и тех, кто занимается исследованиями. Наука не всегда может себя окупить. Поэтому в портфеле задач должны быть такие, которые окупят всё остальное и с запасом.
Можно называть это как угодно: корпоративными лабораториями, отраслевыми НИИ, научно-производственными объединениями или национальными исследовательскими центрами. Это иная форма организации науки, ей требуются серьёзные инженерные и проектные компетенции. И она очень нужна России, чтобы наши люди могли пользоваться научными достижениями в своей повседневной жизни.