Хотите видеть только хорошие новости?

Математики проверили на прочность закон Ципфа

Испанские математики проверили на прочность закон Ципфа, согласно которому при попытке упорядочить все слова языка или текст по убыванию частоты их использования частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n. О результатах исследования рассказывается в свежем выпуске журнала PLOS ONE.

Для того чтобы определить правильность закона Ципфа, исследователи решили использовать его применительно к проекту «Гутенберг» — инициативе по созданию и распространению электронной универсальной библиотеки, которая включает 31075 книг на английском языке. Прежние попытки применить закон Ципфа ограничивались десятками текстов, а теперь исследователи работали с настоящим массивом данных.

Ученые поставили перед собой задачу определить, вписываются ли тексты в закономерность, согласно которой второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и так далее. Таким образом, ими была избрана простейшая формулировка закона Ципфа.

Согласно итогам исследования, при условии, что опущены наиболее редкие и архаичные формы слов, порядка 55 процентов текстов вписываются в закон Ципфа. Если учитывать эти слова, то соответствие закономерности снижается до 40 процентов.

Лингвист Джордж Кингсли Ципф исследовал частотность слов: одних в тексте попадается больше, других меньше, и по этому принципу все слова разбиваются на группы. Ученый предложил дать этим группам порядковые номера (ранги): самые частотные слова получают номер 1, с частотностью пониже — 2, еще на уровень ниже — 3, и так далее.

После этого вычисляется вероятность встретить слово Икс в тексте: количество слов Икс в тексте делится на число всех слов. Ципф обнаружил, что если вероятность для слова Икс помножить на порядковый номер ранга, в котором оно оказалось, то каждый раз будет получаться приблизительно одна и та же величина. Так, для английского языка эта константа равна примерно 0,1, а для русского — 0,06-0,07.

Обсудить
Осталось прикопать
Неуязвимые бактерии угрожают гибелью человечеству
Культура бития
Как уничтожение телефонов превратилось в шоу
Японская бригада
Как якудза завоевывала власть и уважение в Японии: обзор Yakuza 0
Адский пепел
Что сотворило с человечеством мощнейшее в истории извержение вулкана
Лица не увидать
Пользовательницы Instagram посвящают аккаунты своим пятым точкам
Асаны с бутылкой
Пиво, ругань и козлы делают йогу лучше
Дональд Трамп с женой Меланией и моделью Хайди Клум в 2008 годуБойкот по-голливудски
На инаугурации Трампа не будет звезд?
Пернатый премиум-класса
Турецкие коллекционеры тратят последние деньги на элитных голубей
За сотку до центра?
Настоящие раритеты, заканчивающие жизнь в роли африканского такси
Тест-драйв самого красивого бюджетника
Длительный тест Renault Kaptur, симпатичнейшего из бюджетников: часть первая
Тест седана с динамикой суперкара
Тест Audi S8 Plus — представительского седана с максималкой 305 км/ч
5 уникальных суперкаров, погибших в авариях
Очень редкие автомобили, которые закончили жизнь в ДТП
«Теперь она бомж и живет в закутке под лестницей»
История преподавательницы, лишившейся трех квартир в Москве
«Мы начали решать свои проблемы, как в 90-х»
За потребительские кредиты смогут отбирать квартиры
Развели тут бордель
Экскурсия по самому большому публичному дому Южного полушария
Война дворцам
Каких домов лишились в 2016 году звезды Голливуда