В августе 2013 года отдельные блогеры заявили, что сервис «Яндекс.Пробки» искусственно «исправляет» оценку загруженности дорог в Москве по политическим причинам. В качестве аргумента приводилась более «плохая» ситуация с заторами на сервисе «Карты Mail.ru». «Лента.ру» побеседовала с руководителем проекта «Карты Mail.ru» Дмитрием Краминовым о том, насколько корректно такое сравнение и как вообще производится учет пробок и баллов.
«Лента.ру»: Расскажите, когда появились «Карты Mail.ru» и как в них стали отображаться заторы на дорогах.
Дмитрий Краминов: Сами по себе карты появились очень давно — в 2006 году. Тогда это были обычные карты — изображение улиц и все. Пробки появились где-то в середине 2009 года. Сами данные изначально поставляли партнеры. Мы их просто отрисовывали. Это была в большей степени дань моде — тогда у всех были пробки.
Кто был вашим партнером по пробкам в первое время?
Питерская компания «МИТ» (у них брэнд «СитиГИД»). Тогда существовали пробки у «Яндекса», «Рамблера» и Google. У Microsoft тогда пробок не было. Более того, у Google еще не было российских пробок. С 2010 года мы стали достаточно бурно развиваться на основе различных технических средств, в том числе появилась «балльность». А до тех пор просто существовала картинка, которую поставляли партнеры. Сейчас это уже выросло в отдельную штуку — мы этим уже полностью управляем.
Каким образом «Карты Mail.ru» получают данные о пробках?
Сейчас у нас, кроме того партнера, еще много источников. У нас есть собственные данные, у нас есть собственные источники и своя аналитика. То есть мы из многих мест это берем и сверяем.
Под партнерами вы подразумеваете транспортные компании или, допустим, данные ГИБДД или правительства Москвы?
Нет, госструктуры поставляют данные исключительно о перекрытиях или об открытии новых трасс. О дорожном движении они ничего нам не сообщают, да и большого смысла нет. Такой объем данных, какой есть у нас, они все равно не поставят. В основном это, конечно, транспортные компании, которые следят за передвижением собственных автомобилей. Кто-то агрегирует и, соответственно, дает уже усредненные показатели: такая-то улица, такая-то скорость. Кто-то дает чистые данные.
Технология, надо признать, у всех одинаковая. Здесь никакого ноу-хау ни у кого нет. Все так или иначе идут одним путем. Мы сейчас не говорим о государственных источниках, когда, скажем, ГИБДД заявляет, что на такой-то улице такая-то скорость — неизвестно, как они получают такие данные. У всех остальных принцип расчета одинаковый. Дальше вопрос точности модели, количества данных, скорости (кто быстрее на это реагирует).
Алгоритм прост. Есть автомобиль, который движется по улице с некоторой скоростью. Он нам сообщает, с какой скоростью он проехал. Мы накладываем это на какую-то «историю» — может ли он действительно там проехать. Например, мы знаем, что там перекрыто движение, а он проехал со скоростью 110 километров в час. Понятно, что критерий доверия намного ниже. Вдруг это человек с мигалкой проехал? А если, допустим, 20 машин проехало по одному участку с одинаковой скоростью, то, скорее всего, там так и есть.
Понятно, что эта оценка не абсолютная, здесь невозможно заглянуть в каждый уголок города. Существует некое усреднение, допущение, учитывается также статистика. Мы накапливаем данные и смотрим, как на этом участке развиваются события. И если там что-то произошло, то можно выяснить, почему. Чаще всего это ошибка данных. Например, как часто бывает, образовалась пробка. Нам пришли данные, как будто там пробка. Мы проверяем: пробки там нет. Просто у кого-то источник такой, дурака свалял. Такое бывает даже с официальными данными. Нам сообщили о перекрытии, а никакого перекрытия нет. Просто забыли передать всем, что перекрытие сняли.
Вы используете информацию с мобильного приложения «Карты Mail.ru»?
Нет, не используем.
Расскажите про маркировку улиц по цветам. Как определяется длина отрезка, который будет окрашен в тот или иной цвет по загруженности? Существуют ли механизмы фильтрации данных?
В данном случае мы перед собой честны. Мы ничего не додумываем, ничего не «отрезаем». Если у нас есть данные, что на этом отрезке улицы все плохо едет, мы так и сообщаем. Нет никаких дополнительных допущений. Единственное, мы для красоты иногда смещаем участки, «склеиваем» их. Допустим, когда по какой-то причине 15 метров дороги у нас вообще никак не покрашено, мы этот участок докрашиваем ближайшим цветом, исключительно чтобы не было рваной картины на экране. Но если приблизить и смотреть конкретные места на конкретном перекрестке, там информация будет в точности соответствовать данным.
То есть можно сказать, что у вас разрешение маркировки пробок равно 15 метрам?
Нет-нет. Это я для примера сказал.
Какой длины может быть свободный участок «внутри» улицы, окрашенной на вашей карте в красный цвет?
Я так скажу. Если у нас на одном перекрестке данные о пробке и на другом перекрестке такие же данные, а посередине по какой-то причине данных нет, то есть шанс (причем далеко не стопроцентный), что мы вот эту середину окрасим в цвет пробки. Например, мы знаем, что Неглинная вечером буднего дня практически всегда стоит, и у нас есть следующие данные: 500 метров до неизвестного участка в 30 метров стоит и 300 метров после него тоже стоит. Вероятность того, что на этих неизвестных 30 метрах тоже пробка, очень и очень высокая. Такая информация очень важна, особенно для центра города. На длинных трассах мы это практически не применяем. Но Москва достаточно сильно «нашинкована», поэтому таких участков немного.
Насколько быстро обновляется информация о пробках?
У нас жестко забито 15 минут — это максимальный срок, через 15 минут все это точно «тухнет». Какой-то участок может обновиться за две минуты, а по какому-то информация может задержаться. Но через 15 минут совершенно точно все «протухнет».
«Протухнет» — значит, вы сделаете улицу «зеленой»?
Нет, мы не делаем улицу «зеленой». Мы заново смотрим, какая она. Если за 15 минут никаких изменений не было, то мы заново начинаем искать и считать, какая там пробка. Это максимальный срок.
Но за эти 15 минут к вам не поступило никаких данных. Вы каким-то образом экстраполируете информацию с других улиц или «исторически»?
Нет. Улица же не висит в воздухе. Вокруг нее тоже есть какая-то картина. Если вокруг нее все красное, а по этому участку у нас почему-то пропали данные, то мы можем сделать определенное предположение. У нас так или иначе постоянно вокруг что-то происходит. Данных много. В среднем период такого принудительного обновления составляет 7-10 минут.
И насколько широко вы «смотрите», чтобы понять, двигается ли улица?
Учитывается квартал, который ограничен крупными улицами. Скажем, в центре это очень маленькие расстояния, в спальных районах, конечно, побольше получается. Разумеется, мы не берем в расчет междворовые проезды.
Не бывает такого, чтобы в пределах квартала не оказалось актуальных источников информации?
Когда-то такое было, сейчас уже нет. Сейчас у нас даже переизбыток данных. По некоторым местам их слишком много и уже даже неинтересно что-то там уточнять. Не очень хорошая картина разве что «в лесах». Когда очень далекий проезд, какое-нибудь садовое товарищество. Но что касается крупных городов, то все хорошо.
Сколько у вас перемещающихся источников данных по Москве в один отдельно взятый момент времени?
А когда? Утром, днем, вечером? В будни, в воскресенье? Очень сильное расхождение в цифрах. Был момент, когда у нас, скажем так, все сломалось, и источников было 200. При этом картина была вполне достаточной для нас. Иногда их бывает 11 тысяч. Эта картина постоянно меняется, потому что люди то ездят, то не ездят. Цифры все время скачут туда-сюда. Система построена таким образом, что эти колебания для нее не так критичны, она все это выдерживает. Понятно, что если они на двое суток вдруг все перестанут ездить, картина расползется. Но такого у нас не было никогда. И не будет.
Каким образом вы оцениваете общую загруженность в городе — так называемые баллы?
Среднюю температуру по больнице?
Да.
Если более 22 процентов дорог полностью стоят, то есть по ним нельзя проехать, то это 10 баллов. Если по всем можно проехать, то это 0 баллов. Дальше строится зависимость.
22 процента от общей протяженности дорог?
Да, от общей протяженности. Но там по-разному учитываются крупные и мелкие улицы. Понятно, что крупные с большим коэффициентом, а мелкие — с меньшим. Если условно перевести все в километры, то когда встанут 22 процента, то будет 10 баллов. То есть если все мелкие улицы встанут, а крупные будут лететь, то это тоже будет 10 баллов, потому что мелких улиц несколько больше, чем крупных.
В случае с Москвой вы учитываете в баллах для города присоединенные территории?
Частично. Можно долго спорить о том, считать для них баллы отдельно или нет. Например, Зеленоград — это Москва или не Москва? Частично захватываются какие-то поселки, потому что мы считаем, что это часть Москвы. И речь не только о так называемой «новой Москве» — этом аппендиксе, который приделали. Мы знаем, что есть люди, которые живут за пределами Москвы, но часто ездят в Москву работать и наоборот. Для них это как бы общий показатель. Они все равно часть Москвы. Но до Клина или Ярославля не растягиваемся, конечно. Самое смешное, что если неожиданно добавить какой-нибудь подмосковный город, который мы сейчас не учитываем, картина принципиально не изменится. Все-таки картина в самой Москве намного более массивна, чем во всех этих мелких городах.
Почему было принято решение перейти от процентной системы к балльной?
(Вздыхает.) За это надо поблагодарить средства массовой информации, которые настолько часто задавали этот вопрос, что мы решили сдаться вместо того, чтобы пытаться объяснить. На самом деле эта температура по больнице — условный балл и условные проценты — ни о чем не говорит. Соответственно, говорить 10 баллов или 100 процентов — разницы большой нет. Но когда все спрашивают: «Вот ваши 98 процентов — это 9 баллов или 10?» — то в конце концов устаешь отвечать. Наш «внутренний балл» имеет шесть знаков после запятой. И уже это число мы, соответственно, превращаем в красивую циферку, к которой все привыкли.
Почему изначально выбрали процентную систему? Она более показательная, более подробная?
С человеческой точки зрения (и тем более с машинной) это куда более показательно: вот есть 70 процентов загруженности — все понятно. Но все привыкли к баллам. И я сейчас говорю не о пользователях, которым, по сути, все равно. Их больше волнует цвет, нежели какая-то конкретная цифра. Трудности возникли со СМИ, которые спрашивают и постоянно подчеркивают, что здесь так, а здесь немножко по-другому.
Насколько вообще корректно сравнение «баллов» в различных сервисах?
Сравнивать, конечно, некорректно. Им неизвестна наша методика расчета, нам неизвестна их. Кроме того, есть сервисы, у которых, баллы вообще не считают — показывают картину, а цифр никаких не дают. Мы тут даже шутили: «Давайте мы отнимем у себя 2 балла. Что-то поменяется на дорогах?» В Москве не станет легче ездить. Все равно, как плохая картина была в Москве, так и останется.
Баллы — они же как температура по всей Москве. Сейчас 13 градусов или 11? Человек, который мерзнет где-то за городом, не согласится ни с тем, ни с другим утверждением, потому что у него 8 градусов. Так и здесь. Если мы посмотрим на улицу (разговор проходит в офисе «Mail.ru» на Ленинградском проспекте во второй половине дня — прим. «Ленты.ру»), то в область все стоит, а в центр — летит. Вот сколько сейчас баллов, 4 или 10? Трудно сказать.
Я бы не стал сравнивать эти величины, потому что баллы только с большой натяжкой говорят о реальной обстановке в городе. Вот если сравнить обе методики, посмотреть количество источников, качество этих источников, тогда можно было бы о чем-то говорить.
Вы заинтересованы в сравнении методик?
Да не особо. Я вообще считаю, что в этих баллах большого смысла нет. Куда важнее довести пользователя до точки и чтобы он в своем районе посмотрел, что творится. А сколько баллов — это неважно.
Не получится так, что пользователи начнут выбирать тот сервис, где им больше нравятся баллы?
Да сколько бы баллов мы ни показали, ситуация на дороге, к сожалению, не поменяется. Если бы мы могли на это влиять — было бы здорово. Идут разговоры о том, что так или иначе картина на пробочных сервисах все-таки заставляет автолюбителей менять свои маршруты. Но я в это не очень верю. Я думаю, что народ больше консервативен: как ехал, так и поедет в любом случае. Другое дело, что он сетовать будет: «Вот, мне показывали 10 баллов, а я тут спокойно проехал». Или наоборот, соответственно: «Ой, мне обещали свободу, а на самом деле все плохо». Ну и еще раз, это средняя температура по больнице, на конкретном маршруте конкретного водителя все может оказаться совсем не так.
Тогда другой актуальный вопрос: насколько возможно ручное влияние на картину пробок? Вы говорили о перекрытиях. Каким образом вы устанавливаете их на карте?
Просто отмечаем какие-то улицы. Яркий пример — Жуковский, в котором сейчас проходит авиасалон «МАКС». Сегодня весь Жуковский перекрыт из-за того, что туда должен приехать премьер-министр (разговор происходит 27 августа — прим. «Ленты.ру»). Соответственно, все перекрыто. Просто ужас. И вот тут, внимание, вопрос: считать ли перекрытые улицы труднопроезжаемыми или выкинуть их вообще из расчетов?
Как на этот вопрос отвечают «Карты Mail.ru»?
Для нас там проезда нет вообще. Из-за этого общая картина сильно ухудшается. Тот самый балл по городу стал хуже. Потому что Жуковский у нас учитывается как часть столицы, ведь его жители ездят в Москву и из Москвы. Наши друзья по рынку, соответственно, считают, что там проехать можно. Для нас это удивительно. Почему? На «МАКСе» сейчас, как сообщают наши коллеги, все плохо. Там пройти невозможно, не то что проехать. Вот как это учитывать? Это вопрос к методике расчета, к ручному управлению.
Мы можем полезть внутрь, переделать алгоритм. Но придумать особые коэффициенты, которые бы в каждом конкретном случае отнимали или прибавляли баллы, физически невозможно. А информацию по перекрытиям мы заносим на основе официальных данных. Причем иногда это делаем не мы, а наши партнеры. Перекрытие закончилось, его сняли, и там народ поехал.
Я еще раз хочу подчеркнуть, что у нас действительно очень много автоматов, на которые мы при всем желании повлиять не можем. Тот же коэффициент 22 процента не был взят с потолка. Он рассчитан, есть некая модель, в которой получаются какие-то цифры, из которых вывели 22 процента. Повлиять, конечно, можно, но только если мы поменяем весь алгоритм расчета, тогда вся картина сломается. Обещаю, пока мы не планируем ничего ломать.
Но какие-то дополнения в алгоритмы вносятся?
Работу над ошибками ведем всегда, естественно. Но мы считаем, что сейчас у нас правильная картина. Пока жизнь нас не переубедила в обратном.
Мэрия Москвы планирует в рамках создаваемой интеллектуальной транспортной системы сделать свой мониторинг пробок. К вам не обращались как к экспертам и аналитикам?
Нет.
Подобный сервис будет кому-то нужен, помимо самого правительства Москвы?
Конечно. Не все пользуются услугами «Карт Mail.ru», наших партнеров или кого-то еще. Желающие будут. И потом, насколько я понимаю, у них это делается не как отдельный сервис, который покажет пробки Москвы, а там будет много других данных. И это одна из частей, которой будут пользоваться сами госструктуры для анализа. Мы увидим лишь какой-то элемент общей сложной системы. Там очень масштабно все. И это здорово, что они вообще взялись за это. Посмотрим, что получится.
Власти смогут использовать в том числе измерители автомобильного потока. Какие данные объективнее: от стационарных датчиков или от перемещающихся автомобилей?
У них данные о перемещениях тоже будут. Весь наш государственный общественный транспорт, согласно федеральному законодательству, должен быть оснащен датчиками на базе ГЛОНАСС. Соответственно, все перемещения автобусов и такси они смогут учитывать. Как они будут их использовать, неизвестно. Потом, датчиков ГИБДД не так много, чтобы получить полную картину. Вот если они завесят, условно, всю Москву, как они обещают, то появится полная картина. Но машины ведь ездят с такой же скоростью, и неважно, измеряется она датчиком на трассе или в самом автомобиле. Это уже вопрос алгоритмов, насколько они будут честны, красивы и так далее. Пользоваться-то будут.
А вы сами пытались получить доступ к информации с датчиков на общественном транспорте и измерителях потока?
Да.
Получилось?
Напрямую, конечно, нет. Прежде всего, с данными от транспорта достаточно большие сложности юридического характера. Во-вторых, они только начали этим заниматься, поэтому нет данных в том виде, в котором их можно использовать. Они же не могут предложить готовый коммерческий продукт. К датчикам, которые висят на улицах, доступа у нас нет, но и большой нужды в этом нет. У нас достаточно других источников.
Потом, если мы закладываем в алгоритм эти датчики по Москве, то что делать с другими городами? Получается совсем другая методика. Соответственно, скажем, по Питеру мы не сможем так же считать — значит, там надо выдумывать что-то новое. Вот этого не хотелось бы. Все-таки у нас единый алгоритм, он никак не завязан ни на город, ни на источники. То есть он завязан на существующие источники. Если появятся новые, то придется менять алгоритм.
Ваш алгоритм в принципе не содержит каких-то отличий, к примеру, для Москвы, Санкт-Петербурга или Нижнего Новгорода?
Такого, чтобы для Москвы все считалось по одной схеме, а для Питера — по другой, там нет. Просто сама дорожная сеть в городах разная, поэтому получаются разные отпечатки. Мы чем и горды: наш алгоритм в этом смысле совершенно независимый. Его, в принципе, можно в Нью-Йорк перенести — и картина, с нашей точки зрения, будет честная. Если туда руками не лазить, ничего не подправлять, то она должна быть честной.
Стоит ожидать пробок от «Карт Mail.ru» в Нью-Йорке?
А почему нет?
Вернемся из Нью-Йорка в Москву. Как изменилась дорожная ситуация в городе за последние годы?
Ситуация, естественно, ухудшается. Может быть не кардинально, но ухудшается. Но такого, чтобы в определенный момент все окончательно встало, нет. Машин больше, но и дороги шире. Люди чаще ездят, но при этом есть развязки. Это такая взаимодогоняющая ситуация получается. Вот если перестать в Москве что-то делать, тогда, наверно, будет хуже. Если вдруг из Москвы все уедут по непонятным причинам, а стройка продолжится на дорогах, тогда все будет хорошо. Есть некоторые ухудшения, но не настолько критические, как некоторые об этом говорят. Но тут надо конкретно поднимать цифры и сравнивать. По сравнению с прошлым годом ужаса нет.
Как можно выразить общий тренд в цифрах?
Если, условно, сейчас 9 баллов — это на самом деле 8,7, то раньше было 8,6. Одна десятая балла — это много или нет? Причем картина уже к вечеру поменяется — и оценка изменится.
Сейчас в Москве все плохо из-за «МАКСа». Авиасалон прошел — картина изменилась. В Москве стало лучше? Так же нельзя говорить. Время года тоже влияет: зимой состояние похуже, летом получше. А в принципе за год? Ухудшение есть, но пока не критичное. При этом изменения не линейны: если сегодня в конкретном месте ситуация плохая, это не означает, что год назад на том же месте она была лучше. Эти показатели совершенно никак не связаны. Я сам автомобилист, езжу по улицам. Я уверен, что если есть желание, проехать можно всегда.