Мир сжался до шести шагов

Проведено самое масштабное исследование социальных связей

Используя только данные "MSN-мессенджера", можно восстановить значительную часть карты мира. Цвет каждой точки соответствует логарифму количества входов в службу в соответствующем месте (шкала снизу вверх: синий–зеленый–желтый–красный). Здесь и далее изоб

Гипотеза шести шагов, порожденная экспериментом Милграма с 300 адресатами бумажной почты, подкрепленная другими работами – в частности, экспериментом Уоттса с 60 тысячами адресатов почты электронной, породившая известный фильм "Шесть степеней отчуждения", игры "Шесть шагов до Кевина Бэйкона" и "Шесть рукопожатий", получила новое подтверждение: рекордно масштабное исследование социальной сети из 240 миллионов человек.

Краткая история вопроса

"Гипотеза шести шагов" (six degrees of separation – буквально: "шесть степеней отдаления") – понятие достаточно условное, так как строго сформулированной соответствующей научной гипотезы не существует. Тем не менее, все понимают, о чем идет речь, и термин употребляется даже в научных статьях. Мы позволим себе говорить о гипотезе шести шагов, имея в виду примерно следующее утверждение: "Если считать, что два непосредственно знакомых человека находятся на расстоянии шага друг от друга, то среднее расстояние между двумя людьми будет приблизительно равно шести шагам".

Первой широко известной работой, которая привела к возникновению гипотезы, стал эксперимент Стэнли Милграма (Stanley Milgram) из Гарвардского университета. Развивая идеи социолога Майкла Гуревича (Michael Gurevich) и его коллег, Милграм провел эксперимент "Мир тесен" (Small World), изучаемой средой которого была почта. Эксперимент (в котором случайного адресата X просили переслать письмо заданному адресату Y или, в случае невозможности, какому-нибудь адресату Z, который, по мнению X, с большей вероятностью сможет послать письмо Y) показал, что среднее расстояние между двумя адресатами равно шести шагам.

Сам термин предположительно вошел в обиход значительно позже: после фильма 1993 года Six degrees of separation (в русском прокате - "Шесть степеней отчуждения") по одноименной пьесе Джона Гуэйра (Jonn Guare). Сам Гуэйр, объясняя название пьесы, ссылался вовсе не на исследователей социальных сетей, а на Гульельмо Маркони, который рассчитал, что для полного покрытия обитаемой части земного шара радиовещанием достаточно шести трансляционных станций.

И до, и после эксперимента Милграма проводилось немало исследований, часть из которых подтверждала гипотезу шести шагов, часть - опровергала. Сам эксперимент Милграма тоже вызвал большие споры: многие ученые считают, что его результаты не показательны.

Гипотеза получила большое распространение и в популярной культуре. В Америке в 90-е годы вошла в моду игра "Шесть шагов до Кевина Бэйкона" (известный голливудский актер), в которой требуется как можно быстрее найти путь от заданного актера к Кевину Бэйкону, состоящий из наименьшего числа шагов: шагом считается появление двух актеров в одном фильме. Сам Бэйкон сначала был недоволен игрой, а потом привык и даже недавно основал благотворительный фонд с названием, опять же, "Шесть шагов".

В России распространена похожая игра, возникшая, видимо, благодаря сервису "Яндекса" "Мой круг" (или наоборот?), в которой игрок стремится связать себя как можно более короткой цепочкой шагов с заданной знаменитостью, шагом в данном случае является рукопожатие. Предполагается, как читатель уже понял, что цепочку всегда можно сделать не длиннее шести шагов.

Из научных исследований самой известной "постмилграмовской" работой является эксперимент Дункана Уоттса (Dunkan Watts) из университета Колумбии и его коллег. Эксперимент, поставленный в 2001 году, напоминал опыт Милграма, но только средой его служила уже не бумажная, а электронная почта, и участвовало в нем не несколько сотен, а несколько десятков тысяч человек. Результаты получились примерно такими же.

Наконец, авторы последней работы по данной теме, которая будет представлена в апреле на 17-й конференции по "Всемирной паутине" в Пекине, сделали еще один шаг к увеличению масштабов исследования (и заодно к выбору коммуникационной сети, режим работы которой еще ближе к реальному времени).

Исходные данные

Эрик Хорвиц из исследовательского центра Microsoft в Редмонде и Юре Лесковец из университета Карнеги-Меллон, проходивший там практику, экспериментов не проводили. Они получили в свое распоряжение готовую базу данных таких размеров, о которых исследователи досетевой эпохи могли только мечтать: информацию о пользователях службы мгновенных сообщений "MSN-мессенджер" (MSN Messenger).

Хорвиц и Лесковец, кстати, не первые, кто занялся изучением службы мгновенных сообщений "MSN-мессенджера" как социальной сети, однако до них никто не пытался проанализировать данные всех пользователей службы, ограничиваясь лишь какой-нибудь выделенной группой.

Редмондские исследователи изучили все логи "MSN-мессенджера" за 30 дней – июнь 2006 года. За это время в свою учетную запись в службе вошло 242 720 596 человек, из них 179 792 538 отправили или получили хотя бы одно сообщение.

Данные Хорвица и Лесковица неадекватно отражают реальное половозрастное распределение населения Земли. На диаграмме отложено
Данные Хорвица и Лесковица неадекватно отражают реальное половозрастное распределение населения Земли. На диаграмме отложено "население" MSN соответствующего возраста (в процентах от всего населения), синие линии - население Земли. Кликните на изображение

Объем исследуемых данных составил около 4,5 терабайт. Специальный восьмипроцессорный сервер с 32 гигабайтами памяти копировал данные в течение 12 часов.

Ученые могли видеть, кто когда вошел в службу (вышел из нее), кто кого добавил в список контактов (удалил из него), кто в каком разговоре участвовал, сколько сообщений послал и получил и так далее. Они не имели доступа к тексту сообщений или личным данным пользователей, за исключением открытых данных, указываемых при регистрации учетной записи: возраста, пола, языка, местонахождения (для уточнения местонахождения также использовался IP-адрес).

Анализ данных позволил получить много любопытных результатов.

Результаты

Люди стремятся общаться с себе подобными. Пользователи чаще всего беседуют с теми, кто говорит на том же языке, находится примерно в том же регионе, входит в ту же возрастную группу (особенно это сильно выражено для молодежных групп).

Исключение составляет пол: на 255 миллионов связей мужчина–мужчина (пользователи связаны, если они обменялись за исследуемый период хотя бы одним сообщением) и 300 миллионов связей женщина–женщина пришлось 640 миллионов связей мужчина–женщина (или, что то же самое, женщина–мужчина).

Члены старших возрастных групп предпочитают долгие и размеренные разговоры (с низкой скоростью обмена сообщениями) коротким и быстрым, младших – наоборот.

По осям абсцисс и ординат – возраст собеседников. Цветом – логарифм от третьего параметра (шкала снизу вверх: синий–зеленый–желтый–красный): (a) количества разговоров; (b) длительности разговоров; (c) количества сообщений на разговор; (d) количества сообщ
По осям абсцисс и ординат – возраст собеседников. Цветом – логарифм от третьего параметра (шкала снизу вверх: синий–зеленый–желтый–красный): (a) количества разговоров; (b) длительности разговоров; (c) количества сообщений на разговор; (d) количества сообщ

Анализируя IP-адреса, можно определить местонахождение пользователей и восстановить карту мира (см. иллюстрацию выше). Можно также установить интенсивность общения между странами – она всегда выше между исторически или этнически родственными странами. Если оценивать количество разговоров, то, как видно из иллюстрации, международными центрами общения являются США и Испания. Если же оценивать среднюю продолжительность разговора, то самой активной группой оказываются арабские страны с центром в Саудовской Аравии.

(a) Страны, связанные более чем 10 миллионами разговоров. Толщина ребер пропорциональна логарифму количеств разговоров. (b) Страны с самой высокой средней продолжительностью разговоров. Толщина ребер пропорциональна логарифму средней продолжительности раз
(a) Страны, связанные более чем 10 миллионами разговоров. Толщина ребер пропорциональна логарифму количеств разговоров. (b) Страны с самой высокой средней продолжительностью разговоров. Толщина ребер пропорциональна логарифму средней продолжительности раз

Но мы отвлеклись.

Коммуникационная сеть

Хорвиц и Лесковец построили связный неориентированный граф, имеющий 179 792 538 вершин и 1 342 246 427 ребер. Вершинами графа стали пользователи, которые были занесены в списки контактов друг друга и при этом обменялись хотя бы одним сообщением. Граф был построен только на основании данных о личных беседах один на один (такие составили около 99 процентов от общего числа разговоров), а не о чатах с несколькими участниками.

Социальным сетям свойственная высокая степень транзитивности: друзья одного человека часто оказываются друзьями друг друга. У сети "MSN-мессенджера" степень транзитивности оказалась еще выше, чем ожидалось: средний коэффициент кластеризации - отношение количества пар взаимно связанных вершин, каждая из которых связана с вершиной X (количества треугольников при вершине X), к общему количеству вершин, связанных с вершиной X, – составил 0,137, что для подобного графа много.

Наконец, самое главное: исследователи отобрали 1000 случайных вершин и рассчитали кратчайшие пути, соединяющие каждую вершину со всеми остальными. Средняя длина пути составила 6,6 шага. Мода (значение, встречающееся чаще всего) – 6 шагов. Существовали, разумеется, и более длинные пути: так, самый длинный из кратчайших путей между двумя вершинами составил 29 шагов.

Вероятностное распределение длин кратчайших путей. По оси абсцисс – длина пути, по оси ординат – вероятность. Кликните на изображение, чтобы увидеть его целиком.
Вероятностное распределение длин кратчайших путей. По оси абсцисс – длина пути, по оси ординат – вероятность. Кликните на изображение, чтобы увидеть его целиком.

Разумеется, данные "MSN-мессенджера" необязательно адекватно отражают всемирную социальную реальность. Они не охватывают целые страны (Северной Кореи на "карте мира MSN" просто нет), нерепрезентативны для регионов с плохим доступом в интернет (и, возможно, для регионов, где, в отличие от США, "MSN-мессенджер" непопулярен), не содержат данных о людях, которые службами мгновенных сообщений не пользуются. Если все эти данные добавить, то расстояние должно увеличиться. С другой стороны, граф Хорвица и Лесковеца не содержит множества социальных связей, которые на самом деле существуют: родственные (например, между представителями самого старшего поколения и самого младшего, которые реже пользуются компьютерами), дружеские, деловые. Если все это учесть, то искомая средняя длина, вероятно, составит около семи, говорит Лесковец. Впрочем, подчеркивает он, это только предположение.

Обсудить
00:03 2 декабря 2016

В Россию вернулся «Прогресс»

Кто виноват в падении «Прогресса» и почему это — приговор космической отрасли
11:53 2 декабря 2016

Чужими молитвами

В Лос-Анджелесе наградили лучшие видеоигры и показали будущие бестселлеры
В Россию вернулся «Прогресс»
Кто виноват в падении «Прогресса» и почему это — приговор космической отрасли
Чужими молитвами
В Лос-Анджелесе наградили лучшие видеоигры и показали будущие бестселлеры
Четыре мужика в одной палатке
Какие прелести таит продолжение японской культовой ролевой игры Final Fantasy XV
«Вы приехали»
Длительный тест Toyota Camry с «Яндекс.Навигатором»
Безумные трюки грузовиков Volvo
Самые необычные видеоролики с грузовиками Volvo
Выбираем лучший компактный седан
Длительный тест Octavia, Elantra, Corolla и Mazda3
Как полиция перехватывает машины
Полицейские лайфхаки или 8 инновационных способов остановить преступника
Конец близок
Уходящий 2016 год может стать последним для ипотеки
Лестница в ад
Неприглядная правда об интеллигентных обитателях центра Москвы
Да он упоротый просто
Самые странные дома мира в фотографиях из Instagram
Худо будет
Москвичи тратят миллионы на квартиры, в которых невозможно жить