Команда Yandex Research совместно с исследователями из Института науки и технологий Австрии (ISTA) и Научно-технологического университета имени короля Абдаллы в Саудовской Аравии (KAUST) разработала и опубликовала новые методы сжатия больших языковых моделей. Как отмечается, они помогут бизнесу сократить расходы на вычислительные ресурсы до восьми раз.
Решение компании включает два инструмента. Первый позволяет получить уменьшенную до восьми раз нейросеть. Второй инструмент исправляет ошибки, которые возникают в процессе сжатия большой языковой модели.
Новые методы сжатия нейросетей уже доступны для применения. Специалисты также могут скачать уже сжатые с помощью новых методов популярные модели с открытым исходным кодом. Кроме того, исследователи Yandex Research выложили обучающие материалы, которые помогут разработчикам дообучить уменьшенные нейросети под свои сценарии.
Научная статья Yandex Research о методе сжатия AQLM была включена в программу конференции ICML. Статья была подготовлена совместно с исследователями из Института науки и технологий Австрии (ISTA) и экспертами ИИ-стартапа Neural Magic.