Российские технологии в области распознавания и синтеза речи востребованы во многих странах мира. Как ее разработчик помогает бороться с преступностью в Мексике и Эквадоре, почему созданного им робота для контакт-центров принимают за живого человека и как компания противостоит футбольным хулиганам — разбиралась «Лента.ру».
Центр Речевых Технологий (ЦРТ) был основан в 1990 году группой бывших сотрудников отдела прикладной акустики ленинградского НПО «Дальсвязь» Министерства промышленных средств связи СССР. За прошедшие с тех пор 25 лет компания выросла в крупного игрока на рынке биометрических систем и речевых технологий. По данным рейтингового агентства «Эксперт РА», в 2014 году ЦРТ занял 37-е место в рейтинге ведущих российских IT-компаний с совокупным объемом выручки в 877 миллионов рублей. В сентябре 2011 года Газпромбанк стал крупнейшим акционером Центра речевых технологий (ЦРТ).
Российские офисы компании расположены в Москве и Санкт-Петербурге, а для взаимодействия с иностранными клиентами существует и нью-йоркское отделение, где ЦРТ представлен под именем SpeechPro.
При этом все разработки и продукты в Центре речевых технологий делаются своими силами. Сначала научное подразделение создает базовые технологии, а затем на их основе осуществляются готовые рыночные решения.
Всего в ЦРТ было разработано свыше 50 уникальных решений в области распознавания и синтеза речи, идентификации и верификации человека по голосу, шумоочистки и повышения качества аудиозаписей, а также анализа акустических и медиаданных.
В частности, специалисты компании стали авторами технологии максимально естественного механического прочтения вслух любого документа, письма и даже сообщения. До этого на рынке уже существовали методы синтеза речи, обеспечивавшие необходимую интонацию или сохранявшие исходный тембр речи диктора, но совместить эти два параметра воедино не удавалось.
В итоге ЦРТ представил технологию гибридного синтеза VitalVoice, в которую были включены сложные лингвистические алгоритмы анализа, ряд словарей и специальный блок обработки. После изучения исходного текста программа сама выстраивает правильное произношение, подбирает необходимые звуковые элементы и подвергает все финальной акустической обработке. VitalVoice поддерживает все известные операционные системы и может говорить двумя мужскими и пятью женскими голосами на русском языке, а также женскими голосами на казахском и английском языках.
Технология используется в системах информирования и речевого оповещения серии «Рупор», пакетах голосового управления VoiceNavigator и VoiceNavigator Web, а также в мобильных приложениях для прослушивания электронных книг и новостных RSS-каналов. В конце 2014 года компания запустила облачный сервис VoiceFabric, позволяющий озвучивать тексты прямиком через одноименный сайт.
Серьезных успехов исследователи ЦРТ добились и в процессе преобразования устной речи в текст. С помощью технологий распознавания слов, грамматических конструкций и даже целых фраз компания создала Voco — самообучающееся Windows-приложение для набора текста голосом. Пользователь просто произносит сообщение, и оно тут же появляется в печатном виде, а все знаки препинания и абзацы программа расставляет по команде. С помощью Voco также можно преобразовать в текст и аудиофайлы.
Разработки Центра речевых технологий были успешно использованы целым рядом отечественных компаний. На основе механизмов синтеза речи была разработана система голосового самообслуживания для контакт-центров. По словам гендиректора ЦРТ Дмитрия Дырмовского, первоначально специалисты создали образ девушки с симпатичным голосом по имени Елена и получили за это приз на международном форуме Call Center World, после чего внедрить программу в своих контакт-центрах захотели «МегаФон» и РЖД. В итоге Елена оказалась очень похожа на реального человека, и ее собеседники порой думали, что общаются с настоящим оператором.
Компания также является одним из лидеров на рынке улучшения качества речи с помощью технологий шумоочистки. Режим обработки записей сам подстраивается под конкретный тип помех и убирает лишние сигналы и фоновый шум, а также делает речь в разы четче. Эти решения еще 15 лет назад были использованы в программе SoundCleaner, новые версии которой сегодня доступны на всех популярных платформах. Кроме того, специалисты ЦРТ разработали несколько портативных устройств шумоочистки серии «Золушка».
Не менее важная часть бизнеса ЦРТ — решения по распознаванию людей по лицу и голосу. Еще в 2000 году специалисты компании создали технологии автоматической аутентификации человека по парольной фразе, и с тех пор исследования в этой области привели к созданию целого ряда продуктов для спецслужб, органов безопасности и частных структур.
Так, в 2010 году компания по заказу правительства Мексики создала не имеющую мировых аналогов общенациональную систему голосовой идентификации. В ней хранятся миллионы образцов речи, и распознать конкретного человека программа сможет за пять секунд независимо от языка и тембра голоса. Мексиканцы создали национальную базу голосов и внесли в нее не только преступников и сотрудников правоохранительных органов, но и законопослушных граждан, в ряде штатов обязав их сдавать образцы голоса даже для получения водительских прав. При этом в процессе разработки сотрудники ЦРТ вместе с мексиканскими полицейскими объездили почти все крупные тюрьмы страны, где составляли голосовую базу данных среди заключенных. В результате буквально через несколько дней после внедрения система смогла опознать требовавшего крупный выкуп похитителя, который пошел на преступление сразу после выхода из тюрьмы.
Возможность идентифицировать преступника по голосу заинтересовала и власти Эквадора, где ЦРТ в 2012 году реализовал расширенную версию своей системы. Это дало органам правопорядка латиноамериканской страны возможность сравнивать голоса подозреваемых в преступлениях с образцами, хранящимися в общегосударственной базе, что помогает в расследовании. Дополнением к голосовой биометрии стала еще одна разработка российской компании — система автоматического распознавания лиц.
Годом ранее дочерняя структура компании «ЦРТ-Инновации» занялась разработкой подобного решения для российских силовых структур. Сотрудники правоохранительных органов смогут распознавать голос преступников по аудиозаписям, а внешность — по фотографиям и видео.
Помимо госструктур, компания активно продвигает технологии распознавания голоса и лиц на корпоративном рынке. Так, биометрическая платформа VoiceKey используется в мобильном приложении американского банка Wells Fargo и позволяет клиентам за пять секунд подтверждать транзакции, просто считывая вслух код с экрана и смотря в камеру смартфона. VoiceKey также можно использовать при обычном телефонном соединении или на сайте. Система эффективно заменяет собой PIN-коды, SMS-сообщения и другие механизмы аутентификации.
Крупные корпорации и банки часто внедряют в свои системы безопасности еще одну серию решений ЦРТ — комплексы поиска и идентификации человека по его внешности SmartTracker. В зависимости от конкретной задачи, система может узнать и подтвердить личность клиента при получении кредита в банке или посылки от курьера, либо найти нужного человека в толпе по фотографии или фрагменту видеозаписи.
Технологиями ЦРТ воспользовалось и руководство футбольного клуба «Зенит». С 2014 года на стадионе «Петровский» работает комплекс идентификации болельщиков «Визирь.Арена». Он позволяет не пропускать на трибуны людей из черных списков «Зенита» — футбольных хулиганов, нарушителей и провокаторов, а также тех, кому запрещено посещать спортивные мероприятия в соответствии с постановлением суда. Центр также тесно сотрудничает с Российской футбольной премьер-лигой и планирует внедрить свою идею на всех стадионах страны.
На сегодня клиентами ЦРТ также являются Сбербанк, ТрансКредитБанк, Петербургский метрополитен, МЧС, Министерство обороны и различные правительственные структуры. Кроме того, продукция компании востребована в 75 странах мира, в том числе в СНГ и странах Ближнего Востока.