В конце июня 2013 года физик-теоретик Марчело Монтемурро из Университета Манчестер опубликовал в журнале PLoS One работу, в которой утверждалось: легендарный манускрипт Войнича содержит лингвистическую структуру, которая указывает на наличие в тексте скрытого сообщения. Как именно Монтемурро пришел к таким выводам и что за структура содержится в манускрипте, который не могут расшифровать уже более ста лет, «Ленте.ру» рассказал сам физик.
«Лента.ру»: Вы физик-теоретик, ваша диссертация посвящена спиновым стеклам. Расскажите, когда и почему вы заинтересовались рукописью Войнича?
Марчелло Монтемурро: Это произошло несколько лет назад. Моя основная специализация — теория информации в применении к нейрональному кодированию, то есть к тому, как информация кодируется в процессе работы нейронов. В этой области у нас есть несколько методик, которые помогают детектировать и вычислять наличие в сигнале важной информации, не зная при этом, с каким именно типом сообщения мы имеем дело и для чего такая информация используется.
Некоторое время назад мы обобщили эти методы поиска информации таким образом, чтобы их можно было применить для изучения человеческого языка. Они позволяют оценить размер информации в сообщении, даже если мы не понимаем языка, на котором это сообщение составлено. И когда в 2009 году мы натолкнулись на манускрипт Войнича, стало сразу понятно, что это идеальный тест для наших методов, для того чтобы установить, есть ли в этом тексте какое-то сообщение или нет.
В прошлом году исполнилось сто лет с того момента, как о существовании рукописи стало известно науке. Многие криптографы занимались ее изучением, и нельзя сказать, чтобы они далеко продвинулись. Скажите, что сейчас известно о рукописи точно, так сказать, «вне разумных сомнений»?
Вы правы, над расшифровкой манускрипта десятилетиями бились многие мировые криптографы, я бы даже сказал — лучшие из них. Однако ни один не смог выдвинуть обоснованную теорию о том, что содержится в рукописи. Непосредственно с момента ее обнаружения в 1912 году высказывались версии и о том, что рукопись может содержать некое послание, и о том, что она представляет собой сущую бессмыслицу. Однозначного ответа на вопрос о том, какая версия является истинной, пока нет.
Все что у нас есть — это сам манускрипт, состоящий из текста и сопровождающих его иллюстраций. Все анализы текста, которые проводились до сих пор, дают двусмысленные результаты. В том смысле, что в тексте удается обнаружить некоторые статистические особенности, однако ни какого-то определенного языка, на котором он написан (если он написан на каком-то естественном языке), ни типа шифрования (если текст зашифрован) манускрипту сопоставить до сих пор не удавалось. Поэтому те статистические особенности, которые исследователи находили в тексте, можно интерпретировать в сторону обеих версий — как «осмысленной», так и «бессмысленной».
Рукопись Войнича, представляющая собой небольшую пергаментную книгу из 240 страниц, является одним из самых загадочных зашифрованных манускриптов. Рукопись содержит большое количество цветных иллюстраций, на которых изображены растения (ни одно из них не опознано), астрономические или астрологические схемы, рисунки аптекарских сосудов. Согласно данным радиоуглеродного анализа, рукопись была создана между 1404 и 1438 годами. Впервые документ привлек внимание лингвистов и криптологов благодаря библиофилу Вилфриду Войничу, который приобрел ее у Римской Коллегии в 1912 году.
И тем не менее нужно сказать следующее. Чем больше изучаешь статистические особенности текста, тем больше разных уровней структуры в нем удается найти. И это делает версию о том, что этот текст — полученная каким-то случайным механическим процессом бессмыслица, все менее и менее вероятной. То же самое относится и к гипотезе о шифровании, и вот почему. Любой более или менее криптостойкий шифр, который не поддался лучшим криптографам XX века, должен иметь одно важное свойство — он должен уничтожать естественные статистические особенности языка, чтобы исключить возможность узнать этот язык.
Но текст рукописи Войнича имеет один очень важный параметр — он подчиняется закону Ципфа. Этот эмпирический закон однозначно описывает статистику встречаемости слов в естественных языках: если расположить слова по мере убывания частоты употребления, то частота каждого слова окажется обратно пропорциональной его порядковому номеру в списке. Другими словами, второе по популярности слово будет встречаться примерно в два раза реже чем первое, третье — в три раза реже, и так далее.
У этой простой закономерности довольно сложное объяснение. Алгоритмы, которые могут генерировать текст, подчиняющийся закону Ципфа, весьма непросты. Если вы зашифруете текст практически любым стойким алгоритмом, его статистические особенности, в том числе и распределение слов по частоте употребления, будут стерты.
Поэтому возникает вопрос — почему текст манускрипта подчиняется этому закону?
Скажите, а существуют ли алгоритмы, которые позволяют получить искусственный, бессмысленный текст, который, тем не менее, удовлетворяет закону Ципфа?
Да, такие алгоритмы существуют. Я сам работал над ними некоторое время назад. Но это сейчас мы знаем о существовании такого закона, поэтому и можем составить соответствующий алгоритм. Более интересный вопрос заключается в том, как такой алгоритм, такой процесс можно было создать в пятнадцатом веке, когда ни о какой статистике ничего не было известно.
Вы, наверное, знаете, что в 2003 году Гордоном Раггом с соавторами был предложен основанный на криптографических техниках XVI века метод, используя который можно было создавать тексты, напоминающие текст рукописи Войнича. Из этого авторы делали вывод о том, что текст манускрипта — это набор бессмысленных слов, механически созданных при помощи этого метода.
У этой версии, однако, есть две сложности. Во-первых, предложенный метод основан на шифровальной технике, которая появилась значительно позднее того времени, когда, согласно радиоуглеродному датированию, был произведен пергамент рукописи Войнича. А во-вторых, этот метод производит текст, в котором не соблюдается закон Ципфа. Случайные и псевдослучайные процессы могут легко приводить к образованию самых разных распределений — гауссовых, номинальных и так далее, но они не могут приводить к имитации закона Ципфа. Такое распределение можно получить искусственно, но это возможно сейчас, когда мы знаем, что именно мы хотим получить на выходе. Поэтому если вы сторонник гипотезы, согласно которой текст рукописи Войнича — это фальсификация, полученная с помощью какого-то механического метода, то вам нужно объяснить, как такой метод оказался способен производить текст, подчиняющийся закону Ципфа, причем так, чтобы изобретатель метода не знал о существовании такого закона.
В вашей новой работе вы анализировали не только распределение слов по частоте, но и смысловую структуру текста. Не могли бы вы в двух словах пояснить методологию такого анализа?
В тексте, написанном на совершенно любом языке, слова можно разделить на два больших класса. Есть структурные слова, у которых нет какого-то «собственного» смысла. Они существуют для того, чтобы помогать грамматике. Например, в английском это артикли (the, a), предлоги, слова «больше», «меньше», «очень» и так далее. Но есть и другие слова, которые, наоборот, имеют отношение не к грамматике, а к семантическому смыслу текста. Они напрямую связаны с той темой, о которой идет речь.
Статистика употребления слов, принадлежащих к этим двум классам, сильно отличается. Структурные слова встречаются с более-менее одинаковой частотой на всем протяжении текста, так как они не привязаны к смыслу того, о чем идет речь. Те же слова, которые связаны со смыслом, встречаются в тексте крайне неравномерно. Например, если в какой-то момент вы говорите на определенную тему, вам понадобится употреблять связанные с этой темой слова, каждое из которых семантически связано с другими. И локальная частота их употребления будет гораздо выше, чем средняя в тексте. Такие слова образуют в тексте кластеры.
Эта идея различия в употреблении более и менее информативных слов, которую я только что описал, довольно проста. Технически, для проведения количественного статистического анализа текста и вычленения наиболее информационно-нагруженных слов мы используем специальную математическую модель. Сначала мы определяем оптимальный размер окна (кластера, в котором мы ищем неравномерность, о нем позже), затем находим наиболее неравномерно встречающиеся слова, а затем анализируем то, как часто пары этих слов встречаются вместе в одном окне. В результате мы получаем семантические сети, в которых важные слова связаны друг с другом с той или иной «силой».
Marcelo A. Montemurro, Damián H. Zanette, PLoS ONE, 2013
Теперь о характерном размере семантического кластера. Скопления, которые образуют нагруженные смыслом слова в естественных языках, имеют определенный, характерный для языка размер. Конечно, в разных текстах для обсуждения разных тем используется разное количество слов, но если текст достаточно большой, то эти особенности более или менее усредняются и можно говорить о типичном размере.
Мы сравнили средний размер семантического кластера в манускрипте Войнича с известными языками, и по этому параметру они оказались удивительно похожи. В то же время текст рукописи сильно отличается от других информационных сообщений, которые не являются языками (в работе авторы иллюстрировали свои выводы сравнением текстов с последовательностью ДНК и с программой на Фортране — прим. «Ленты.ру»).
Конечно, вы можете сказать, что схожесть размера семантического кластера с естественными языками — это всего лишь совпадение. Однако если совместить все существующие статистические аргументы, то получится, что при создании такого текста произошло слишком много совпадений. Текст рукописи, как и естественные языки, подчиняется закону Ципфа, имеет сходный с известными языками характерный размер семантического кластера, эти семантически важные слова образуют типичные для естественных языков сети.
Есть еще один аргумент против гипотезы о бессмысленности рукописи. Манускрипт, как вы знаете, принято делить на разделы в соответствии с тем, какие рисунки встречаются на его страницах. Мы сравнили статистические особенности разных разделов и обнаружили, что те разделы, которые ближе всего друг к другу по этим чисто текстовым особенностям, также имеют более схожие иллюстрации. Это по крайней мере говорит о том, что между текстом и картинками существует какая-то взаимосвязь. И эту связь не так легко увидеть глазом, так что если вы считаете, что эта связь была симулирована специально, требуется объяснить — для чего?
Таким образом, гипотеза о мистификации, о механическом создании текста манускрипта, хотя формально и не может быть отвергнута, требует все более и более сложных объяснений. А простое объяснение таких особенностей текста заключается в том, что рукопись действительно содержит какое-то послание. Почему мы не можем его расшифровать — это уже другой вопрос.
Если посмотреть на наиболее сильно связанные слова в составленных вами семантических сетях, то можно заметить, что они просто внешне довольно сильно похожи друг на друга. Например, сильно связаны друг с другом по смыслу (каким бы он ни был) слова shedy-chedy-qokeedy-qoteedy или пары chok-chol и так далее. Может ли это помочь расшифровать грамматику «войничского» языка?
Важно понимать, что те слова, которые вы видите в схеме сети, не обязательно грамматически связаны. Они связаны по смыслу. Мы сделали моделирование подобной семантической сети для английского текста «Происхождения видов» Дарвина, и если вы посмотрите на то, что получилось, то там хорошо видно, что большинство связанных по смыслу слов морфологически не похожи друг на друга. Есть, конечно, некоторое количество исключений, как, например, со словами «fertile» (фертильный, способный к размножению) и «fertilize» (оплодотворять), но их немного.
Если мы сравним семантическую сеть «Происхождения видов» с сетью рукописи Войнича, то слова в последней окажутся гораздо сильнее похожи друг на друга. Почти все они, как вы заметили, морфологически друг с другом связаны. И это, конечно, необычный и важный факт, который стоит иметь в виду. Интересно, что известны примеры искусственных языков, в которых существует подобная взаимосвязь между морфологией и смыслом, однако в естественных языках она не встречается.
У меня есть вопрос, касающийся времени написания манускрипта. Сейчас существуют несколько теорий на этот счет, несколько потенциальных авторов. Все они, за исключением Роджера Бэкона, жили в XVI веке, притом что углеродная датировка показала, что манускрипт был написан в первой половине XV века. Означает ли это, что фактически у нас нет ни одного кандидата в авторы?
На самом деле мы можем проследить путь манускрипта начиная с XVII века. Все, что говорится о более раннем времени, конечно же, спекуляция. Это, кстати, довольно уязвимое место всех теорий фальсификации этого манускрипта. Тот же Рагг, например, обходит в своей гипотезе этот факт.
Как вы планируете дальше развивать свой метод? Что с его помощью еще можно попытаться изучить?
Тут есть несколько возможных путей. Можно, например, попробовать разобраться вот в каком вопросе: связаны ли (в смысле статистики) ключевые слова в тексте с иллюстрациями? Если эту связь удастся обнаружить, то можно начать пытаться определить примерное значение этих слов (если это, конечно, слова).
Другой вариант — собрать побольше доказательств гипотезы о том, что манускрипт Войнича содержит некоторое осмысленное послание. Для этого потребуется рассмотреть разные криптосистемы, доступные в то время, и проанализировать их. Это позволит убедиться, что статистические свойства, на которые опирались в работе мы, при кодировании исчезают. Ну или сохраняются — это еще надо посмотреть.