Реклама

Реклама. 12+. ООО «Единое Видео». VK Видео: vkvideo.ru
Соглашение: vkvideo.ru/legal/terms. VK - ВК. erid: 2RanynDT8xa.

В Сбере рассказали о поддержке нейросетью национальных языков народов России

Сбер: ГигаЧат освоил более 30 языков народов России и стран СНГ

Фото: Кристина Кормилицына / РИА Новости

Обновленный ИИ-помощник «ГигаЧат» улучшил качество понимания и создания текста более чем на 30 языках народов России и стран СНГ. В их числе татарский, башкирский, чувашский, удмуртский, якутский, бурятский, осетинский, чеченский, карачаево-балкарский и другие. Поддержка каждого языка потребовала отдельной точечной доработки модели – качество ответов обеспечивалось за счет тщательно отобранных обучающих данных. Всего с учетом других международных языков «ГигаЧат» может выполнять задачи более чем на 40 языках.

Партнерами по сбору данных для обучения ИИ-помощника выступила ФГБУ «Дом народов России» и интернет-энциклопедия «Рувики», а также региональные академии наук, научные и образовательные организации и некоммерческие фонды, работающие в сфере сохранения локальных языков и культурного наследия народов России.

Поддержка национальных языков реализована в текстовом формате. Достаточно попросить «ГигаЧат» отвечать на нужном языке — и он будет его использовать, когда пользователь обращается на нем к ИИ-помощнику. Пользователи ИИ-помощника могут получать ответы, консультации и помощь в цифровых сервисах на родном языке: от поиска информации и помощи в учебе до подготовки текстов, обращений и взаимодействия с государственными органами. Возможность общаться с ИИ на родном языке важна как для старшего поколения, получающего доступ к сервисам на родном языке, так и для подрастающего, осваивающего цифровую среду через ИИ-помощников. Такой подход помогает укреплять связь между поколениями, сохранять культурную и историческую память и создает основу для будущего развития сервисов и продуктов на национальных языках в образовании, культуре, туризме, медиа и других секторах экономики, отмечают в Сбере.

Многие национальные языки исторически мало представлены в цифровой среде, поэтому Сбер выстраивает работу с широким кругом федеральных и региональных партнеров — университетами, библиотеками, медиа и культурными институтами, региональными ассоциациями, фондами и академиями наук, заинтересованными в оцифровке языкового наследия и развитии ИИ-сервисов на родных языках. Именно они помогают собирать и верифицировать языковые данные, необходимые для обучения модели. Носители языка также участвуют в разметке и оценке качества: контролируют корректность ответов модели, проверяют грамматику, стилистику и соответствие живой речи.

Обучающий набор по каждому языку включал от нескольких сотен тысяч до нескольких миллионов документов. Это архивные и современные тексты из фондов образовательных учреждений и библиотек, новостные и публицистические материалы медиапартнеров, а также учебные и научные тексты. Разнообразие источников обеспечивает высокое качество ответов и охват как литературного, так и разговорного языка. Команда также оптимизировала алгоритмы обработки национальных языков, что заметно повысило эффективность обучения. Такой подход позволил добиться значимого улучшения качества ответов при относительно компактных датасетах.

«Мы хотим сделать "ГигаЧат" по-настоящему массовым продуктом — таким, которым сможет воспользоваться каждый житель страны. В России используют более 270 языков и диалектов, и мы ставим перед собой задачу, чтобы как можно больше жителей могли общаться с нашим ИИ-помощником на родном языке. Когда человек может объяснить задачу своими словами, на языке, на котором он думает и чувствует, ИИ-помощник становится по-настоящему полезным инструментом в обычной жизни — будь то помощь ребенку с учебой, разбор юридического договора или инструкция по настройке новой техники», — отметил старший вице-президент, руководитель блока "Развитие генеративного ИИ" Сбера Антон Фролов.

Лента добра деактивирована.
Добро пожаловать в реальный мир.
На сайте используются cookies. Продолжая использовать сайт, вы принимаете условия
Ok