Жирная точка отсчета

Яндекс насчитал в Рунете 15 миллионов сайтов

Осенью 2009 года на Рунет пришлось 6,5 процента всех интернет-сайтов мира. Это означает, что каждый пятнадцатый сайт Сети находится в российском сегменте интернета. Всего же в этом самом сегменте 15 миллионов сайтов. Целых десять страниц подобных данных опубликовал 11 ноября Яндекс в своем отчете "Контент Рунета".

Основой для исследования послужил, конечно, индекс самого Яндекса как крупнейшего поисковика Рунета. В Рунет Яндекса попали русские, украинские, белорусские сайты, а также все ресурсы в доменах .am, .az, .by, .ge, .kg, .kz, .md, .ru, .su, .tj, .ua и .uz. Таким образом, Яндекс более чем широко трактует понятие Рунета, в который обычно включают лишь сайты в зонах .ru и .su.

Другая немаловажная деталь заключается в том, что все цифры приводятся по "открытому" Рунету, то есть ресурсам, для захода на которые не нужен пароль. Это верхушка огромного айсберга, потому что под водой скрываются такие гиганты, как "Одноклассники" и "Вконтакте". Чем живут тамошние обитатели и каким контентом они обмениваются, робот Яндекса доподлинно не знает.

Рунетчиков Яндекс, кстати, самостоятельно считать не стал, удовлетворившись оценкой ФОМ в 37,5 миллиона человек. Для оценки всего населения интернета были взяты июньские данные Internet World Stats, где говорится, что в Сеть выходят 1,7 миллиарда человек. Поделив одно на другое, Яндекс выяснил, что рунетчиков насчитывается лишь 2,2 процента от всех пользователей интернета. То есть в Рунете на каждого пользователя приходится в три раза больше сайтов, чем в среднем по миру.

Так как Рунет в таком формате Яндекс оценивает впервые (ранее были обзоры блогосферы и медиасферы), сравнивать не с чем. В документе говорится, что за десять лет Рунет вырос в триста раз, однако как изменился контент, понять из отчета непросто. Поэтому исследование пестрит поражающими воображение числами и обходится без выводов.

В индексе Яндекса хранится 140 тысяч гигабайт текстовых данных или, если считать иначе, 2,3 триллиона слов. Это примерно по 60 тысяч слов на каждого рунетчика, то есть по стандартной книжке из 280 страниц на нос. Если все это распечатать, выйдет состоящий из 10,5 миллиарда страниц куб высотой с девятиэтажный дом.

Каждая четвертая веб-страница, хоть и содержит текст, бесполезна. Это поисковый спам, целью которого является перенаправление пользователя с поисковиков на нужные авторам сайты. Не блещет смыслами свыше половины сайтов Рунета - 56 процентов из них состоят всего лишь из одной страницы.

Информация в Рунете вообще распределена очень неравномерно. 88 процентов информации сконцентрировано менее чем в одном проценте сайтов. Таким образом, хотя Яндекс и сообщает, что средний сайт состоит из 255 страниц, 159 тысяч слов и 204 картинок, этот показатель не отражает типичные случаи. У тех сайтов, которые содержат больше одной страницы, среднее значение, очевидно, гораздо выше.

В основном в Рунете говорят на двух языках - русском (91 процент) и английском (3 процента). Два процента сайтов выполнены на украинском, еще один - на белорусском. Остальные проценты приходятся на все другие языки.

Яндекс рассказал не только о текстах. В российском сегменте Сети поисковик насчитал 2,1 миллиарда изображений, тридцать процентов из которых приходится на крупнейшие фотохостинги - Photofile.ru, Radikal.ru, Фото Mail.ru и Яндекс.Фотки. Там хранится 800 миллионов картинок.

Кроме того, к осени 2009 года в Рунете скопилось 7,2 миллиона видеороликов. Их вставили в веб-страницы 19,1 миллиона раз, а всего они крутятся на 2,4 процента сайтов Рунета. Еще 0,7 процента сайтов практикуют прямые ссылки на видеофайлы. Наконец, музыку в открытом доступе Яндекс нашел только на каждом двухсотом сайте Рунета.

Чтобы сделать отчет немного веселее, Яндекс рассчитал доли позитивных и негативных слов. Как оказалось, позитивных в Рунете вдвое больше, а сайтов с веселыми смайликами аж в 2,5 раза больше, чем с грустными.

Исследование контента завершается кратким обзором норм русского языка. В целом, все осталось на своих местах - кофе в сознании рунетчиков как был, так и остается мужского рода, слово "брачующиеся" не уступило равноправным с ним "брачащимся", а такие слова, как "тег", "флеш", "бренд" и "тренд", спешно избавляются от иногда употребляющихся букв "э". И даже опечаток, по данным Яндекса, оказалось в Рунете не слишком много.

"Контент Рунета" - довольно странный отчет. Он интересен не тем, что в нем написано, а самим фактом своего существования. Яндекс, который недавно убрал точку отсчета из блогосферы, теперь пытается поставить ее в исследованиях Рунета.

Другое дело, что считать число слов в российском сегменте Сети - занятие на любителя. Нам бы знать, о чем рассказывает этот бумажный девятиэтажный куб.