Математики проверили на прочность закон Ципфа

Испанские математики проверили на прочность закон Ципфа, согласно которому при попытке упорядочить все слова языка или текст по убыванию частоты их использования частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n. О результатах исследования рассказывается в свежем выпуске журнала PLOS ONE.

Для того чтобы определить правильность закона Ципфа, исследователи решили использовать его применительно к проекту «Гутенберг» — инициативе по созданию и распространению электронной универсальной библиотеки, которая включает 31075 книг на английском языке. Прежние попытки применить закон Ципфа ограничивались десятками текстов, а теперь исследователи работали с настоящим массивом данных.

Ученые поставили перед собой задачу определить, вписываются ли тексты в закономерность, согласно которой второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и так далее. Таким образом, ими была избрана простейшая формулировка закона Ципфа.

Согласно итогам исследования, при условии, что опущены наиболее редкие и архаичные формы слов, порядка 55 процентов текстов вписываются в закон Ципфа. Если учитывать эти слова, то соответствие закономерности снижается до 40 процентов.

Лингвист Джордж Кингсли Ципф исследовал частотность слов: одних в тексте попадается больше, других меньше, и по этому принципу все слова разбиваются на группы. Ученый предложил дать этим группам порядковые номера (ранги): самые частотные слова получают номер 1, с частотностью пониже — 2, еще на уровень ниже — 3, и так далее.

После этого вычисляется вероятность встретить слово Икс в тексте: количество слов Икс в тексте делится на число всех слов. Ципф обнаружил, что если вероятность для слова Икс помножить на порядковый номер ранга, в котором оно оказалось, то каждый раз будет получаться приблизительно одна и та же величина. Так, для английского языка эта константа равна примерно 0,1, а для русского — 0,06-0,07.

Обсудить
Наука и техника

Разумная роскошь

Больше не нужно выбирать между красотой и функциональностью
«Большевистская сволочь хотела грабить и держаться у власти»
Почему советские люди беспомощны и слабовольны
Участница XIX Всемирного фестиваля молодежи и студентов в СочиПопали в сеть
Фестиваль молодежи и студентов в Сочи связал десятки тысяч людей со всего мира
Вас здесь не лежало
За что стоит воевать в российских больницах
Без бумажки ты...
Почему российским автолюбителям придется пройтись по судам
Шам на крови
Что скрывает павшая столица «Исламского государства»
Шпион, разлогинься
Мировые корпорации породили свои ЦРУ и КГБ, но проиграли интернету
Иссам ЗахреддинХалифат убери
Сирийский терминатор три года косил джихадистов, но взорвался в день победы
«Мне довелось убивать русских»
Жажда крови, шепот смерти и грязная работа головорезов в Сирии
Доброе утро, Вьетнам!
Еще одна азиатская страна сошла с ума по караоке
«Бабушка спрашивает, заставляют ли мусульмане сменить веру»
История москвички, которая переехала в Объединенные Арабские Эмираты
Жируха
В лондонской канализации нашли мерзкое нечто
Тайное оружие наркобаронов
У них есть танки, суперкомпьютеры и беспилотники
Дайте грязи: конкуренты вседорожному хэтчу Kia Rio X-Line
Renault Sandero Stepway, Lada Vesta SW Cross и другие приподнятые бюджетники
Как через Instagram продают машины за миллионы
Соцсети, молодеющие покупатели и другие причуды современного рынка суперкаров
Семиместность не порок
Как из пятиместной Mazda CX-5 получился семиместный кроссовер CX-9
Тест: зачем машине эта штуковина?
Попробуйте угадать, зачем инженеры это придумали
Братва помнит
Чем украшают могилы криминальных авторитетов
Интим предлагать
Секс стал способом решения квартирного вопроса
«Я тупо решила, что теперь ем одну гречку»
Одинокая мать год сидела на крупе, чтобы накопить на квартиру
Раз, два, взяли!
Жилье в Крыму пока еще можно купить за копейки