Новости партнеров

Культурно подсчитали

Как цифры помогают ученым разобраться в музыке, кино и литературе

Фото: Scotsman / Zuma / Global Look

Рост технических возможностей последних десятилетий привел к тому, что в руки ученых попали огромные массивы данных (Big Data). Теперь можно делать временами просто революционные выводы об устройстве и динамике развития таких, казалось бы, тонких материй, как музыка или литература. Одна беда: кажется, большими данными можно подкрепить любую возможную точку зрения. «Лента.ру» разбирается с последними попытками «поверить алгеброй гармонию».

Музыкальные революции

Напомним: большими данными (Big Data) называют машинные методы обработки огромных объемов часто неупорядоченных и многообразных данных для получения воспринимаемых человеком результатов. Активно используемая с 2008-2009 годов в бизнесе, Big Data основаны на автоматической обработке настолько большого количества информации, которое человек никогда не смог бы охватить, причем с отличной скоростью. Успех больших данных каждый день может наблюдать любой из нас — практически вся продвинутая контекстная реклама по факту является последствиями их использования. Само собой, новый инструмент быстро привлек ученых, желавших использовать данные Всемирной сети для анализа настроений в обществе, экономического поведения граждан и много другого. И вот случилось неизбежное: новые методы решили использовать, чтобы изучить тонкую материю человеческой культуры.

Недавний пример: группа ученых из Великобритании в сотрудничестве с веб-сервисом Last.FM проанализировала 17 тысяч песен американского хит-парада Billboard Hot 100 за 1960-2010 годы. В качестве главных отличительных признаков («букв» описательного языка для песен) использовали аккорды музыки и тембр композиции в целом. Выводы, к которым пришли исследователи, довольно необычны: настоящие революции за полвека случились только трижды. В 1963 году «Битлз» переломили тренд развития поп-музыки в США, около 1983 года это сделало сразу несколько «групп с синтезаторами» типа Duran Duran, а в 1991 году — исполнители хип-хопа. Причем последняя революция была наиболее радикальной и изменила музыку больше, чем ливерпульская четверка. Более того, авторы соответствующей научной публикации пришли к выводу, что разнообразие в популярной музыке на протяжении полувека не снижалось, а, напротив, все время росло.

Исследование вызвало массу вопросов. Чтобы «стандартизировать» песни, ученые выбрали из каждой по 30 секунд звучания. Однако очевидно, что первые тридцать секунд и такой же отрезок из середины композиции — это совершенно разные полминуты. В некоторых песнях за тридцать секунд вы не дослушаете даже до первого припева, когда характеристики и аккордов, и тембра резко меняются. В других за 30 секунд из произвольно взятого места композиции вы, напротив, услышите один припев.

Специалисты по поп-музыке вроде Джона Ковача (глава американского Института популярной музыки) задали не менее коварный вопрос: как быть с тем, что в хит-парады не всегда попадет действительно популярная музыка? Как отмечает Ковач, массированное использование рекламных методов для продвижения композиций и просто махинации музыкальных студий, «проплачивающих» продвижение в чартах песен раскручиваемых ими исполнителей, может создать крайне странную картину «популярности» не самых удачных исполнителей. А если та или иная «хитовая» группа в какой-то момент мало обращала внимание на промоушен или у нее были проблемы с выбором «пробивной» студии, то ее песни вообще не попадали в Billboard Hot 100.

Ковач напоминает, что в этот хит-парад входили именно синглы, в то время как из целого ряда знаковых альбомов XX века звукозаписывающие студии не выпустили вообще ни одного сингла, отчего в Hot 100 они формально так никогда и не попали. Среди них «Sgt. Pepper's Lonely Hearts Club Band» — альбом «Битлз» 1967 года, кардинальным образом изменивший поп-музыку. Иными словами, анализирование поп-музыки без учета альбомов похоже на изучение влияния творчества Льва Толстого на мировую литературу без учета его романа-эпопеи. Бесспорно, такой роман у него был только один, и вроде бы включать его в исследование с привлечением больших данных нет смысла, так как Big Data требует стандартизации вводимой информации. Увы, этот единственный роман-эпопея — «Война и мир», без которой Толстой был бы писателем совсем другого уровня.

Великий и могучий

Допустим, с музыкой получилось неудачно. Но должны же быть положительные примеры? Действительно, там, где дело касается менее сложных данных, используемых чрезвычайно большими массивами, Big Data может давать более адекватные результаты. В 2013 году Эрез Эйден (Erez Aiden) и Жан-Батист Мишель (Jean-Baptiste Michel) выпустили книгу «Неразмеченная территория: большие данные как увеличительное стекло для человеческой культуры». Книга основывалась на исследованиях их программы Ngram Viewer, которая автоматически анализировала тексты восьми миллионов книг по частоте употребления определенных имен или слов. Результаты получились довольно интересные. Скажем, точно выяснилось, что вплоть до 1870-1880-х годов жители США не воспринимали себя населением единой страны. Они писали «United States are» вместо сегодняшних «United States is» и в повседневной жизни думали о них как о сообществе государств (states), а не государстве, состоящим из штатов. Лишь после Гражданской войны, когда попытка части штатов действовать самостоятельно закончилась кровавой бойней, в книгах появились словосочетания «United States is».

Впрочем, если нас больше интересует не история, а современность, то стоит разобраться с тем, как большие данные анализируют часть человеческой культуры, связанную с интернетом. Оказывается, и здесь они ведут к нетривиальным выводам, которые без них сделать было бы непросто. Ученые во главе с Сезаром Идальго (César A. Hidalgo) решили узнать, какие языки действительно значимы в международном общении, то есть способны объединить представителей разных народов. Среди прочего они учли более миллиарда твитов на разных языках и сотни миллионов правок статей Википедии разноязычными пользователями.

Выяснилось неочевидное: несмотря на распад СССР русский остается актуальным международным языком, часто отмечающимся как средство коммуникаций, доступное иноязычным пользователям. Сходный статус все еще имеют испанский, французский и даже немецкий и португальский, несмотря на то, что количество людей, для которых эти языки являются родными, меньше, чем для арабского или фарси. При этом языки, на которых говорит половина населения планеты (диалекты китайского и хинди), вовсе не имеют статуса международных языков и служат для интернет-общения в основном в пределах страны. Определенно, ведись исследование на эту тему «вручную», сделать такие выводы и не быть обвиненными в пристрастности авторы работы не смогли бы!

Великий режиссер Кристиан И. Найби-второй

Другая группа ученых во главе с Луисом Амаралом (Luís Amaral) с помощью Big Data нашла способ предсказать шансы фильма стать классикой, анализируя то, как часто фильм упоминается («цитируется») в картинах других режиссеров. В итоге получилось статистически надежное средство, позволившее удачно предсказывать, какие картины будут включены в Национальный реестр фильмов США.

Правда, не всегда большие данные и фильмы дружат так же удачно. К примеру, Netflix, поставщик фильмов и сериалов на основе потокового мультимедиа, быстро стал нуждаться в собственной системе классификации и ранжирования фильмов. С их помощью компания определяет предпочтения основной массы зрителей, чтобы удачнее угадывать, какие именно картины и сериалы стоит закупать для последующей продажи. И если во многих аспектах большие данные действительно помогли разобраться в предпочтениях зрителей по актерам и темам, то кое-где результаты получились просто странными.

К примеру, самым популярным актером США по версии системы ранжирования Netflix оказался... Рэймонд Берр (Raymond Burr). Если вы не знаете этого имени, то вы не одиноки: далеко не все жители США могут назвать исполнителя главной роли в сериале «Пэрри Мейсон» 1950-х годов. Сами создатели системы больших данных Netflix не могут понять, как этот человек оказался в их базе выше Джонни Деппа, Шона Коннери или хотя бы Мерил Стрип.

Ну, а в первой десятке наиболее популярных режиссеров находятся... увы, называть имена в основном бесполезно. Кроме Вуди Аллена (четвертое место) и Питера Джексона (десятое) ни одно из них ничего вам не скажет, если только вы не узкий специалист по второстепенным американским режиссерам. Первое место в этом списке неизвестных знаменитостей занимает Кристиан И. Найби-второй (Christian I. Nyby II) — он снял несколько эпизодов того же «Пэрри Мейсона», правда, уже не совсем того, а другого — ремейка 1980-х, и этот сериал имел много меньший успех, чем оригинальный. Само собой, в список не попали ни Тарантино, ни кто-либо из ключевых режиссеров даже голливудского кино. Почему? На этот вопрос официальный представитель Netflix честно ответил: «Чем сложнее становится машинный мир, тем сложнее прогнозировать результат. Загадке Пэрри Мейсона было суждено родиться. Призраки "из машины" всегда будут присутствовать как побочный продукт увеличения сложности алгоритмов. Иногда мы называем их багами, а иногда — особенностями».

Так что же, подходят ли большие данные как увеличительное стекло для изучения человеческой культуры? Пожалуй, лучше всего ситуацию характеризует Майкл Джордан (Michael Jordan), авторитетный специалист по машинному обучению из Калифорнийского университета в Беркли. Как он отмечает, чем больше данных собирает система, тем больше ваши аппетиты к выдвижению теорий на основе этих данных. В современных действительно больших базах данных поведение человека можно охарактеризовать миллионами переменных — достаточно просто разложить статистику посещения им разных интернет-сайтов в разное время суток. И разное число комбинаций миллиона параметров могут дать миллион в миллионной степени вариантов, описывает ситуацию Джордан. Например, вы живете в Пекине, ездите на велосипеде и не болеете гастритом. Из этого можно сделать вывод, что либо китайцы, либо велосипедисты, либо жители столиц менее склонны к этому заболеванию, — и с точки зрения Big Data далеко не очевидно, какая именно из этих корреляций верна. Но если мы увеличим количество обсчитываемых параметров до миллиона или более, в них можно будет найти любую корреляцию.

Пытаться сделать выводы по всем этим комбинациям можно, но есть риск упереться в обратную теорему о бесконечных обезьянах, отмечает исследователь. Как известно, теорема о бесконечных обезьянах утверждает, что группа мартышек, посаженных за печатные машинки, рано или поздно случайным образом наберет «Гамлета». Однако вероятность этого события оценивается как очень низкая. Даже если бы обезьянами заполнили все пространство видимой Вселенной, и работали они без сна и отдыха последние 13,7 миллиарда лет, шанс на написание «Гамлета» равняется примерно 0,1 в 183800-й степени.

Увы, большие данные, в отличии от обезьян, «печатают» гораздо быстрее. И у них уже сейчас есть вероятность если не напечатать «Гамлета», то по крайней мере по 30-секундным нарезкам из хип-хоп-песен прийти к выводу, что музыкально в них больше нового, чем в песнях «Битлз», как это сделали вышеупомянутые британские авторы.

Слишком мощный инструмент

Итак, большие данные могут немало сказать о массовой культуре. Однако, как и любой инструмент, они делают это лишь в умелых руках. Заранее задавая ясные и однозначные критерии поиска, с ними можно много добиться. Но сделать это можно только в том случае, если исследователь понимает всю сложность анализа такого тонкого явления как культура. В этом случае он возьмет большую выборку, озаботится подбором однородных данных и постарается отсеять неизбежные «шумы».

Стоит помнить и о том, что в определенных случаях инструмент может просто не работать. Если мы измеряем сопротивление медной пластины, а прибор показывает, что перед нами изолятор, — логично предположить, что он неисправен. Наверное, получая результаты, по которым хип-хоп является самым большим событием в истории музыки за последние полвека, стоит задуматься не о том, что не так с музыкой, а о том, подходит ли инструмент Big Data для этой области.

Радует одно: сами по себе выводы, извлекаемые с помощью больших данных, вряд ли могут сильно сказаться на развитии культуры — ведь пока ими руководствуются не «производители», а «распространители» продукта.