«Яндекс» готовит обновление семейства YandexGPT. Это стало известно благодаря открытому рейтингу больших языковых моделей на русском языке LLM Arena. Компания «Яндекс» подтвердила, что ведет работу над новой более мощной версией своей базовой языковой модели.
Узнайте больше в полной версии ➞Модель под названием YandexGPT Experimental оказалась в топе рейтинга LLM Arena на одном уровне с GPT-4o, LLaMA 3.1 и Claude 3,5 Sonnet. Рейтинг LLM Arena оценивает, насколько хорошо модели отвечают на вопросы на русском языке.
Платформу LLM Arena запустили независимые разработчики из российского ML-комьюнити. Сервис дает бесплатный доступ пользователям к различным большим языковым моделям (LLM), взамен пользователи определяют какая, по их мнению, модель дает лучший ответ. На основе собранных пользовательских оценок авторы сервиса строят рейтинг моделей, по которому можно сравнивать модели друг с другом.
Логика сервиса и принцип работы был взят у зарубежного сервиса LMSYS Chatbot Arena — одного из самых авторитетных бенчмарков на зарубежном рынке.
В отличии от зарубежного аналога, в LLM Arena сделан акцент на русский язык, добавлены российские LLM, такие как YandexGPT, GigaChat, «Сайга», «Вихрь». Авторы сервиса отметили, что хотят создать объективный, открытый и актуальный бенчмарк LLM моделей на русском языке.
В будущем сервис намерен добавить мультимодальную арену, и сделать бенчмарк первым на российском рынке.
В России уже есть несколько бенчмарков LLM моделей, такие как rulm-sbs2, MERA, Arena-Hard-Auto. В отличии от текущих бенчмарков, оценка моделей происходит не автоматически другой более сильной моделью, или на основе приватных закрытых тестов, а с помощью человеческих живых оценок реальных пользователей, что делает бенчмарк более объективным.