Великий, могучий, сетевой Лингвист Борис Орехов об успехах русского языка в интернете

Борис Орехов (Институт русского языка РАН, специально для «Ленты.ру»)

19 марта 2013 года ресурс W3Techs, занимающийся анализом веб-сайтов, сообщил о том, что по их подсчетам, русский язык вышел на второе место по распространенности среди языков интернета, уступая только английскому. Эта новость имеет прежде всего два аспекта: технический и социолингвистический. Иными словами, тут возникают такие вопросы: «как это считали?» и «что это значит для русского языка?»

Как это считали?

Чтобы выяснить, на скольких страницах в Сети употреблен тот или иной язык (скажем, русский), нужно всего-навсего каждую такую страницу загрузить и просмотреть. «Смотреть», конечно, будет не человек, потому что интернет хотя и создан для людей и их удобства, своими объемами очень быстро перерос человеческие возможности. На 2009 год, то есть уже довольно давно, объем Сети составлял около 500 экзабайтов, то есть 500 миллиардов гигабайтов, и с тех пор увеличился не менее чем в 1,5 раза.

Чтобы собирать информацию с веб-сайтов, придуманы специальные программы-роботы, которые называются спайдерами (то есть «пауками», бегающими по Сети) или краулерами. Они скачивают веб-документы и передают их другим программам для обработки и анализа. Но даже специальные программы, запущенные на обычном компьютере, будут делать такую работу слишком долго. Нужна внушительная техническая база, парк объединенных под общую задачу серверов, нужно решать и сопутствующие логистические задачи, чтобы обеспечить этим серверам бесперебойную работу.

С этими сложностями сталкиваются в первую очередь поисковые системы вроде «Яндекса» и Google, которые сканируют интернет и предоставляют нам информацию о его содержимом. Если не обладать возможностями этих крупных компаний, то и качественный «обход» Сети вряд ли получится. Чтобы просеять веб за конечное время, поневоле придется что-то сокращать и оценивать приблизительно. Собственно, об этом и пишут сами сотрудники W3Techs, указывая в разделе часто задаваемых вопросов, что во многих случаях ограничиваются только главной страницей известного им сайта и не заглядывают глубже. Соответственно, как распределены языки на таких сайтах, можно судить лишь в самых общих чертах, что, конечно, влияет и на точность выводов исследования.

Кроме того, известно, что в последнее время основная жизнь в интернете переместилась в социальные сети и микроблоги. Каждую секунду в Facebook, «ВКонтакте», Twitter создаются и транслируются новые записи. Однако даже крупные поисковые системы испытывают трудности с тем, чтобы своевременно и со всей полнотой фиксировать эти действия пользователей. Социальные сети специально технически устроены так, чтобы самостоятельно распоряжаться своим контентом, не делясь этим лакомым куском с конкурентами. Надежды на то, что W3Techs научились сканировать Facebook лучше, чем Google или «Яндекс», прямо скажем, невелики, а ведь именно внутри социальных сетей потенциал интернет-жизни любого языка раскрывается в полной мере.

Есть и другие технические нюансы. Например, когда мы пытаемся выявить, сколько в интернете страниц, содержимое которых написано на том или другом языке, должны мы (как это делают те же поисковики) «склеивать» дублирующие друг друга страницы и отбрасывать липовые сайты (так называемые «дорвеи»), созданные не для прочтения человеком, а для того, чтобы обмануть поискового робота?

Не стоит сбрасывать со счетов и такое обстоятельство, как трудность автоматического определения языка. В тот момент, когда краулер скачивает страницу, он передает ее для дальнейшей обработки распознающей язык программе, и гарантий, что та определит язык безупречно, не может дать никто. Сложностей с различением японского и французского языков, скорее всего, не возникнет — у них разная письменность. Но сумеет ли машина верно увидеть, русский язык перед ней или болгарский, уже большой вопрос. Системы распознавания вообще чрезвычайно сложны и трудоемки в разработке, с ними не всегда справляются даже крупные компании. Тот же Google довольно часто ошибается, предлагая при поиске показывать страницы «только на русском».

Еще один нюанс: в 1990-х годах некоторое (по тем временам — существенное) количество страниц на русском языке было создано в режиме «транслита», to est’ transliterirovannogo latinitsej teksta. Учесть такого рода материалы несколько сложнее, а спутать их с тем, что написано на других языках, легче. Конечно, по сравнению с современными объемами «нормальной» кириллицы это небольшая величина, но учтена ли она в данных W3Techs? Обнаружить информацию, уточняющую этот аспект, на сайте компании не удалось. Нужно ли говорить, что и это серьезно влияет на конечный результат подсчетов?

Одним словом, к выводам W3Techs нужно относиться с большой осторожностью, особенно с учетом того, что, по их данным, русский язык во второй половине марта 2013 года вышел на второе место, незначительно обойдя не какой-то другой язык, а немецкий. W3Techs же является одним из направлений деятельности именно немецкой консалтинговой компании Q-Success. Разумеется, тут нет подтасовки. Просто вполне вероятно, что немецкая компания лучше всего осведомлена о немецкоязычной части интернета и исследует ее с особенной тщательностью. Однако проверить выводы W3Techs независимому эксперту будет сложно — слишком велики сопутствующие инфраструктурные затраты.

Но даже если принять во внимание все эти трудности, одному из результатов исследования W3Techs верить можно: русский язык быстрыми темпами наращивает свое присутствие в интернете. В этом смысле важнее не то, сколько десятых процента сейчас русский язык отвоевывает у своих «конкурентов», а то, какими темпами его доля растет в интернете. И по данным W3Techs, этот показатель очень даже неплохой.

Что это значит?

Однако устойчивый рост русский язык обнаруживает пока только в интернете. В том смысле, что в «оффлайне» дела у него обстоят несколько хуже и по распространенности он занимает 8-ю позицию с числом говорящих около 160 миллионов человек по всему миру. Из этого следует, что все больше носителей русского языка знакомятся с интернетом, в то время как большинство носителей китайского, испанского, арабского и других языков, обходящих русский по численности, пока еще далеки от высоких технологий (или их интернет-активность в недостаточной степени учитывается W3Techs).

На этом примере мы в чистом виде наблюдаем так называемый «эффект низкого старта»: уровень «информатизации» постсоветского общества (основного поставщика русскоязычного контента) изначально был очень низким, гораздо ниже, чем у немецко-, испано- и франко- (а уж тем более англо-) язычных социумов. В результате все остальные языки уже, скажем так, выбрали свой ресурс наполнения Сети контентом, а русскоязычные пользователи, по сути, только начинают поставлять в интернет свои тексты (есть среди этих пользователей и носители других языков постсоветского пространства, использующие русский как lingua franca, но их доля по сравнению с теми, для кого русский родной, невелика).

В качестве аргумента в пользу «эффекта низкого старта» можно рассматривать и уже упоминавшийся главный показатель распространенности: динамика роста. Если у немецкого языка она замедляется, то просто потому, что большинство немецкоговорящих уже имеют доступ к Сети, расти этой аудитории уже некуда. Когда-нибудь наступит такое время, когда каждый житель планеты станет одновременно и пользователем интернета. Тогда выровняется число говорящих и представленность языка в вебе, то есть русский заметно уступит китайскому, на котором говорит более миллиарда человек, притом что китайский занимает в рейтинге W3Techs только 6-ю строчку.

Как бы там ни было, доступ к современным технологиям — это безусловное достижение прогресса в самом лучшем смысле этого слова, а та положительная динамика, которую демонстрирует присутствие русского языка в интернете, прежде всего свидетельствует о растущем благосостоянии российского общества, что, конечно, внушает осторожный оптимизм. Другое дело, что жизнь, которой язык живет в Сети, заметно отличается от его существования за пределами интернета. Эти отличия зачастую заставляют переживать за судьбу языка, однако на сегодняшний день опасения эти по большей части безосновательны.

Конечно, растущая русскоязычная аудитория заставляет количество переходить в качество. Уже в середине 2000-х накопилась достаточная критическая масса говорящих на русском в интернете, чтобы появились специфические узнаваемые особенности интернет-жаргона: «превед, кросавчег» и прочие «олбанские» слова. Но эта языковая игра быстро наскучила ее создателям, а главное, тот же самый рост аудитории и приход в интернет новых пользователей, не готовых поддерживать такое «насилие над языком», свел эти явления на нет. Никаких подобных процессов не происходило, например, в башкирском или татарском интернете: они просто еще не успели накопить достаточной для этого пользовательской базы. Что же до искаженных слов (так называемых «эрративов») вроде «медвед» и «креведко», то, как показывают последние лексикостатистические исследования, в национальном языке они закрепиться не смогли, хотя в середине 2000-х казалось, что это если не образ будущего русского языка, то по крайней мере надолго.

Русский язык интернет-общения, конечно, отличается некоторыми специфическими особенностями. Формально он относится к письменной форме речи — обычно вдумчивой и размеренной, но ситуация сетевой коммуникации часто заставляет пользователей создавать более спонтанные реплики, по многим характеристикам напоминающие речь устную. То новое, что рождается в этой особенной среде (например, формы ответов вроде «+1»), влияет на оффлайн достаточно скромно, так что пока специальные формы интернет-общения остаются в своей электронной резервации и общенациональному языку не угрожают. Хотя и не исключено, что с ростом числа пользователей интернета и дальнейшего распространения «интернет-оффлайнового двуязычия» эта ситуация будет меняться.

Великий, могучий, сетевой Лингвист Борис Орехов об успехах русского языка в интернете

Как это считали?

Что это значит?

Раскрыто место запуска атаковавшего российское судно дрона. Что сейчас происходит с поврежденным газовозом «Арктик Метагаз»?

Власти Японии опровергли сообщения об отправке экономической делегации в Россию

Россиянам напомнили о ближайшем нерабочем праздничном дне

ГИБДД подготовила жутковатый видеоролик специально для молодежи

Нвазваны возможные похитители дронов у ВСУ

Вирус водных животных оказался опасен для здоровья человека

В Польше выступили с предупреждением для Украины

44-летняя модель намекнула на свадьбу снимками в бикини

В США признали критический ущерб от ответных действий Ирана

Байкер из известного мотоклуба заставил жену оказывать секс-услуги 120 мужчинам