Математики проверили на прочность закон Ципфа

Испанские математики проверили на прочность закон Ципфа, согласно которому при попытке упорядочить все слова языка или текст по убыванию частоты их использования частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n. О результатах исследования рассказывается в свежем выпуске журнала PLOS ONE.

Для того чтобы определить правильность закона Ципфа, исследователи решили использовать его применительно к проекту «Гутенберг» — инициативе по созданию и распространению электронной универсальной библиотеки, которая включает 31075 книг на английском языке. Прежние попытки применить закон Ципфа ограничивались десятками текстов, а теперь исследователи работали с настоящим массивом данных.

Ученые поставили перед собой задачу определить, вписываются ли тексты в закономерность, согласно которой второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и так далее. Таким образом, ими была избрана простейшая формулировка закона Ципфа.

Согласно итогам исследования, при условии, что опущены наиболее редкие и архаичные формы слов, порядка 55 процентов текстов вписываются в закон Ципфа. Если учитывать эти слова, то соответствие закономерности снижается до 40 процентов.

Лингвист Джордж Кингсли Ципф исследовал частотность слов: одних в тексте попадается больше, других меньше, и по этому принципу все слова разбиваются на группы. Ученый предложил дать этим группам порядковые номера (ранги): самые частотные слова получают номер 1, с частотностью пониже — 2, еще на уровень ниже — 3, и так далее.

После этого вычисляется вероятность встретить слово Икс в тексте: количество слов Икс в тексте делится на число всех слов. Ципф обнаружил, что если вероятность для слова Икс помножить на порядковый номер ранга, в котором оно оказалось, то каждый раз будет получаться приблизительно одна и та же величина. Так, для английского языка эта константа равна примерно 0,1, а для русского — 0,06-0,07.

Обсудить
Поигрались и хватит
Америка признала биткоин, но надежнее он от этого не стал
Валентин Тимаков«Дальний Восток — дорога к рынку АТР»
Валентин Тимаков — о дефиците рабочих в ДФО и пользе «Дальневосточного гектара»
Грустный праздник
Еда, алкоголь и подарки: сколько стоит отметить Новый год
«Весь город наш!»
Грозная банда «Хади Такташ» стала настоящим кошмаром Казани 90-х
Воровской передел
Лидер криминальной России рискует сесть надолго. За его трон развернулась война
Деловая колбаса
Улюкаев готовился к долгой и счастливой жизни, а получил восемь лет строгача
Запахло жареным
Секс с русским святым, геи в балете, педофилы в Голливуде: главные скандалы года
Есть почитать че?
Библиотека как мир, гуки и геи в беде, сразу два Линча: топовый артхаус на 2A17
Вера и Владимир Набоковы«Не знаю, что с тобой сделаю при встрече»
Что писал Набоков своей жене во время разлуки
«Евреи забили гвоздь в голову русскому человеку»
Шпионы КГБ обвиняли советских рокеров в победе мирового сионизма
Poloвинка
Поездка на передней части будущего седана VW Polo для России
Чудо-Judo
Вспоминаем молодежный трансформер Nissan Judo, о котором все забыли
8 лимузинов, появление на свет которых сложно оправдать
Большие, длинные и чрезвычайно бесполезные
Погружение в кирпич
Мы посидели в новом «Гелике» и не узнали его. А потом вылезли – и узнали
«Меня не убили, просто развели»
Россиянка влюбилась по уши и лишилась жилья
Что-то встало за окном
Строения, вызывающие самые пошлые ассоциации
Его ворсейшество
Бессмертные ковры возвращаются на стены российских квартир
С собой не увезешь
Как живут российские олигархи за границей