Сбер открыл доступ к ruGPT-3.5 и mGPT

Сбер дал доступ к модели генерации текста для русского языка ruGPT-3.5 и mGPT на 61 языке

Алена Шаповалова (Сотрудник отдела «‎Бизнес»)

Сбер открыл доступ к нейросетевой модели генерации текста для русского языка ruGPT-3.5 13B. Ее дообученная версия лежит в основе сервиса GigaChat. Также банк выложил новую версию модели mGPT 13B — самую большую из семейства многоязычных моделей Сбера, способную генерировать тексты на 61 языке.

Обе модели доступны на HuggingFace, и их могут использовать все разработчики.

Внутри GigaChat находится ансамбль моделей — NeONKA (NEural Omnimodal Network with Knowledge-Awareness). Для его создания нужно было выбрать базовую языковую модель, которую потом можно было обучать на инструктивных данных. Russian Generative Pretrained Transformer версии 3.5 с 13 миллиардов параметров (ruGPT-3.5 13B) — новая версия нейросети ruGPT-3 13B.

Модель ruGPT-3.5 13B содержит 13 миллиардов параметров и умеет продолжать тексты на русском и английском языках, а также на языках программирования. Длина контекста модели составляет 2048 токенов. Финальный чекпоинт модели — это базовый претрейн для дальнейших экспериментов.

Модель также доступна на российской платформе ML Space в хабе предобученных моделей и датасетов DataHub. В обучении модели участвовали команды SberDevices и Sber AI при поддержке Института искусственного интеллекта AIRI.

Также в открытом доступе опубликована многоязычная модель mGPT 13B под открытой лицензией MIT. Версия mGPT 13B содержит 13 миллиардов параметров и способна продолжать тексты на 61 языке, включая языки стран СНГ и малых народов России. Длина контекста модели составляет 512 токенов.

Модель может использоваться для генерации текста, решения различных задач в области обработки естественного языка на одном из поддерживаемых языков путем дообучения или в составе ансамблей моделей.

Модель также доступна на российской платформе ML Space в хабе предобученных моделей и датасетов DataHub.

«Сбер как ведущая технологическая компания выступает за открытость технологий и обмен опытом с профессиональным сообществом, ведь любые разработки и исследования имеют ограниченный потенциал в замкнутой среде. Поэтому, мы уверены, что публикация обученных моделей подстегнет работу российских исследователей и разработчиков, нуждающихся в сверхмощных языковых моделях, создавать на их базе собственные технологические продукты и решения. Пробуйте, экспериментируйте и обязательно делитесь полученными результатами», — отметил старший вице-президент, CTO, руководитель блока «Технологии» Сбербанка Андрей Белевцев.

Сбер открыл доступ к ruGPT-3.5 и mGPT

«Огромная разница в возможностях». Россия нанесла массированный удар по Киеву. Что о «ночи возмездия» пишут мировые СМИ?

Стали известны масштабы сокращения золотого запаса России

Стало известно об ударе ВСУ по следовавшему из Минска автобусу в российском регионе

В Минфине призвали бизнес работать эффективнее

Появилось видео задержания похитивших 110 тонн нефтепродуктов в Дагестане

Набиуллина назвала влияющие на фондовый рынок России факторы

Трамп почтил память исполнителя хита Y.M.C.A.

Врач предупредила россиян об угрожающих жизни последствиях запоров

Москвичам предрекли резкое похолодание

Предсказаны катастрофические последствия потепления для России