Математики проверили на прочность закон Ципфа

Испанские математики проверили на прочность закон Ципфа, согласно которому при попытке упорядочить все слова языка или текст по убыванию частоты их использования частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n. О результатах исследования рассказывается в свежем выпуске журнала PLOS ONE.

Для того чтобы определить правильность закона Ципфа, исследователи решили использовать его применительно к проекту «Гутенберг» — инициативе по созданию и распространению электронной универсальной библиотеки, которая включает 31075 книг на английском языке. Прежние попытки применить закон Ципфа ограничивались десятками текстов, а теперь исследователи работали с настоящим массивом данных.

Ученые поставили перед собой задачу определить, вписываются ли тексты в закономерность, согласно которой второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и так далее. Таким образом, ими была избрана простейшая формулировка закона Ципфа.

Согласно итогам исследования, при условии, что опущены наиболее редкие и архаичные формы слов, порядка 55 процентов текстов вписываются в закон Ципфа. Если учитывать эти слова, то соответствие закономерности снижается до 40 процентов.

Лингвист Джордж Кингсли Ципф исследовал частотность слов: одних в тексте попадается больше, других меньше, и по этому принципу все слова разбиваются на группы. Ученый предложил дать этим группам порядковые номера (ранги): самые частотные слова получают номер 1, с частотностью пониже — 2, еще на уровень ниже — 3, и так далее.

После этого вычисляется вероятность встретить слово Икс в тексте: количество слов Икс в тексте делится на число всех слов. Ципф обнаружил, что если вероятность для слова Икс помножить на порядковый номер ранга, в котором оно оказалось, то каждый раз будет получаться приблизительно одна и та же величина. Так, для английского языка эта константа равна примерно 0,1, а для русского — 0,06-0,07.

Обсудить
Наука и техника
 — 
00:02 19 апреля 2017
Никола Лемери выступает с публичной лекцией по химии

Достали

Зачем простой аптекарь объявил войну могущественным алхимикам
«В отношениях с Китаем и Россией Трамп готов рискнуть»
Политолог из КНР о ситуации внутри страны и взаимодействии с соседями
Эрдоган, Аллах и Россия
Стоит ли бояться исламизации Турции
Первый тур отыграли
В финале президентской гонки во Франции — Ле Пен и Макрон
French Foreign Legionnaires carry the coffin of French politician Yves Guena during an official funeral ceremony at the Hotel des Invalides in Paris, France, March 8, 2016 REUTERS/Charles Platiau TPX IMAGES OF THE DAYУтрата масштаба
Франция рискует стать малой европейской страной
Столица мира
Повседневная жизнь послевоенного Нью-Йорка
Китайские машины, которые уже совсем не клоны
Крутые новинки китайских марок, которые вы пропустили
Новые машины для старого «Форсажа»
Современные спорткары в раскраске автомобилей из самого первого «Форсажа»
Квиз: что означают логотипы автомобильных марок
Тест на знание эмблем известных автобрендов
Быстро и просто
Навещаем Михаила Алешина на самой гламурной гонке Indycar
Чудеса селекции
Что получится, если скрестить квартиру с дачей: опыт россиян
Шведы поневоле
Исповедь россиянина, живущего в групповой семье
Добро пожаловать в рай
Жилье в Крыму: новую квартиру на полуострове можно купить за миллион рублей
Сносное настроение
Демонтаж жилых домов в Москве: что нужно знать
Вышка светит
Как выглядит частный особняк, побивший мировой рекорд этажности