Математики проверили на прочность закон Ципфа

Испанские математики проверили на прочность закон Ципфа, согласно которому при попытке упорядочить все слова языка или текст по убыванию частоты их использования частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n. О результатах исследования рассказывается в свежем выпуске журнала PLOS ONE.

Для того чтобы определить правильность закона Ципфа, исследователи решили использовать его применительно к проекту «Гутенберг» — инициативе по созданию и распространению электронной универсальной библиотеки, которая включает 31075 книг на английском языке. Прежние попытки применить закон Ципфа ограничивались десятками текстов, а теперь исследователи работали с настоящим массивом данных.

Ученые поставили перед собой задачу определить, вписываются ли тексты в закономерность, согласно которой второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и так далее. Таким образом, ими была избрана простейшая формулировка закона Ципфа.

Согласно итогам исследования, при условии, что опущены наиболее редкие и архаичные формы слов, порядка 55 процентов текстов вписываются в закон Ципфа. Если учитывать эти слова, то соответствие закономерности снижается до 40 процентов.

Лингвист Джордж Кингсли Ципф исследовал частотность слов: одних в тексте попадается больше, других меньше, и по этому принципу все слова разбиваются на группы. Ученый предложил дать этим группам порядковые номера (ранги): самые частотные слова получают номер 1, с частотностью пониже — 2, еще на уровень ниже — 3, и так далее.

После этого вычисляется вероятность встретить слово Икс в тексте: количество слов Икс в тексте делится на число всех слов. Ципф обнаружил, что если вероятность для слова Икс помножить на порядковый номер ранга, в котором оно оказалось, то каждый раз будет получаться приблизительно одна и та же величина. Так, для английского языка эта константа равна примерно 0,1, а для русского — 0,06-0,07.

Обсудить
«Эта гадина растет в геометрической прогрессии»
Кто спасает эмбрионы от абортов и Россию от вымирания
Первый после папы
Ради чего к Путину, Лаврову и патриарху Кириллу приехал госсекретарь Ватикана
Жизнь на Линии Ж
О сильной девочке, саркоме и превратностях судьбы
Тайсон с Матвеевской
Агрессивный москвич отомстил дворнику за жену, выбив зубы и откусив ухо
Михаил ГорбачевТак вышло
Чьи долги Россия выплачивала четверть века
20 вопросов и ответов
ПФР и «Лента.ру» разбирают самые распространенные запросы россиян о пенсиях
Крепкий Орешкин
Почему российской статистике не верит даже министр
Братья биткоэны: новый золотой пузырь
Грозит ли криптовалюте грандиозный обвал
Мари-Од Мюрай«Я никогда не понимала, мальчик я или девочка»
Мари-Од Мюрай о взрослении, гендерном поведении, горе и любви
Кирилл Серебренников (в центре)«Клетка — всегда плохо»
Дело Кирилла Серебренникова: реакция общественности и соцсетей
Аудионаркотики
Без российских инженеров не было бы техно, Rammstein и игры Doom
Что смотреть на Ночи кино
Пять главных фильмов двухдневной кинопрограммы в Москве
«Объявлен окончательный коммунизм»
2 важные старые книги: выбор Валентина Курбатова
Окно на дно
Основатель Microsoft нашел погибший крейсер, перевозивший атомную бомбу
Дичь какая
Эти люди совершают преступления, которые другим даже в голову не придут
Pola festival, sangli, maharahstra, india, asia

Накидались
На фестивале метания камней в Индии пострадали более 460 человек
Длительный тест Mercedes-AMG GLA 45
Повседневная жизнь с 380-сильным заряженным кроссовером
Огромные кабриолеты, которые нельзя не хотеть
Невероятно роскошные кабриолеты, впечатляющие своими масштабами
Тест: угадай машину по ключу
Простой тест на знание... ключей зажигания
Все конкуренты Lada Vesta SW Cross
С кем новый универсал Lada поборется за кошельки прижимистых покупателей