Наука и техника

Все Наука В России Космос Оружие История Здоровье Будущее Техника Гаджеты Игры Софт

Ножом ножи целует фото «Лента.ру» выяснила, чего нельзя найти с помощью Google

Для большинства интернет-пользователей Google — это инструмент, которым они пользуются, не задумываясь. Поиск стал настолько привычным и массовым делом, что анализы поисковых запросов дают репрезентативные данные относительно реальных настроений людей за пределами интернета (вот пример). Вместе с тем, технология поиска постоянно совершенствуется. О том, каким образом это происходит, чем измеряется качество поиска, а также какие инструменты персонализации использует Google, «Ленте.ру» рассказал специалист по качеству поиска корпорации Владимир Офицеров.

«Лента.ру»: Владимир, расскажите, в чем заключается ваша работа в Google? Ваша должность очень интересно называется.

Владимир Офицеров: Да, это очень часто вызывает у людей вопросы. Группа качества поиска — это группа инженеров, которые работают над алгоритмами ранжирования. Они занимаются тем, что улучшают алгоритмы, сортирующие результаты поисковых запросов.

Вы говорите «инженеры улучшают». Скажите, чем измеряется качество поиска?

Общепринятая метрика для оценки результатов поиска называется DCG (Discounted cumulative gain). Ее идея достаточно простая: мы берем запрос, находим результаты, показываем эти результаты какой-то группе пользователей и спрашиваем у них, насколько хорошо эти результаты отвечают на данный запрос. Они говорят нам, что результат очень важный, просто релевантный, не релевантный, совсем нерелевантный или вообще какая-то бессмыслица. Если первые пять-десять результатов оказываются релевантными (желательно, чем важнее, тем выше, то есть на первом месте — самый главный результат), то, значит, Google по такому запросу работает хорошо.

Как отбираются пользователи для тестов?

Мы пытаемся отобрать пользователей, которые наиболее приближены к реальной аудитории, то есть живут в той стране, в которой мы измеряем метрику. Их должность называется «рейтеры» (от английского to rate — оценивать).

И как выглядит процесс совершенствования поиска?

Процесс достаточно простой. Мы находим запросы, на которые наша поисковая машина возвращает неоптимальные результаты. Источником таких запросов могут служить наши тестировщики. Вот несколько примеров (зачитывает): «Новости лечение детей с поражением центральной нервной системы в Челябинске», «Уйгурские криминальные авторитеты», «Ножом ножи целует фото», «Сумамет суспензия как быстро снижает температуру», «Время течет фразеологизм».

Дальше мы пытаемся понять, почему этот запрос не возвращает релевантные результаты и как такую проблему можно решить. Иногда плохой поиск связан с тем, что мы не совсем поняли запрос. То есть запрос, например, сформулирован с одним словом, а в искомом документе написано другое слово. Тогда понятно, что проблема с синонимами — нужно сделать так, чтобы одинаковые слова и выражения трактовались поисковой машиной одинаково. Иногда, например, (как с упоминавшимся запросом про температуру) бывают слова, которые вредят обработке запроса — в данном случае это слова «как быстро». Это означает, что мы должны немного переформулировать запрос, выкинув лишнее. При этом, конечно, надо быть осторожным. Потому что в запросе «Феррари как быстро» словосочетание «как быстро» уже не лишнее, потому что речь, скорее всего, идет о том, насколько быстро ездит «Феррари».

Владимир Офицеров
Владимир Офицеров закончил МГТУ имени Баумана в 1995 году и переехал в США. C 1999 года он работал в компании Inktomi над одним из первых интернет-поисковиков, который можно было найти на многих порталах того времени: Yahoo, AOL, HotBot, GoTo. В 2003 году компания Yahoo купила поисковую машину Inktomi и запустила на ее основе Yahoo! Search. В Yahoo Владимир работал над алгоритмами краулера и эффективного индексирования интернета. В 2008 году он стал одним из основателей Yandex Labs в Калифорнии, где совместно с инженерами из Москвы участвовал в разработке Orange — системы для быстрого поиска и индексирования веб-страниц. С 2010 года Владимир работает в компании Google в Калифорнии и является одним из разработчиков алгоритма ранжирования качественного контента Panda. В настоящее время он руководит группой русскоязычного поиска в Google. Фото: личная страница в Facebook

Просмотрев достаточное число запросов, мы находим такие общие проблемы. И дальше уже начинаем решать. Конечно, один и тот же запрос можно улучшить разными способами. Поэтому мы начинаем работу с гипотезы. Скажем, у меня есть идея, что слова «как быстро» для определенного класса запросов не нужны. Я строю новую поисковую машину, в которой мой алгоритм реализован. После этого я могу взять случайный набор запросов, послать их в поисковую машину без моих изменений, с моими изменениями, и получить разный набор результатов. После чего мы берем эти результаты и показываем тем же самым рейтерам, которые оценивают качество поиска. Делают они это вслепую — им неизвестно, какой из двух наборов результатов был выдан модифицированной поисковой машиной, а какой — обычной. Мы задаем им простой вопрос: «Какие результаты вам нравятся больше?» После этого мы анализируем статистику ответов и смотрим, было ли изменение статистически успешным, нейтральным или неуспешным. Если мы видим, что изменения позитивные для достаточно большого числа запросов и стран, то предложение о внесении изменений выносится на комиссию экспертов. Свои изменения нужно представить и защитить, то есть доказать, что они действительно улучшают работу поиска. Если решают, что идея стоящая и метрики нас не вводят в заблуждение, то алгоритм запускается в производство.

Сейчас много говорится о персонализации. Скажите, каким конкретно образом Google проводит персонализацию?

Мы не пытаемся классифицировать пользователей в какие-то группы — поведение каждого если и анализируется, то только на основе информации, сохраняемой в вашем профайле в Гугле. Это, в основном, история посещения страниц, запросы, которые вы вводили, города, где вы находитесь, языки, которые вы понимаете.

В результате персонализация делится на три типа. Во-первых, мы ранжируем выдачу в зависимости от того, что вы искали ранее. Во-вторых, более сложная персонализация связана с географией. Если вы пришли к нам из России, мы предполагаем, что вы понимаете русский, и соответственно мы вам стараемся не показывать сайты на английском языке. Мы знаем приблизительно ваш город, по IP-адресу либо координатам, если вы зашли в интернет с телефона, и если вы ищете такси или ресторан, то мы показываем такси в вашем городе и ресторан в вашем городе. Последнее — это персонализация с точки зрения социального круга. Это если у вас есть друзья в Google+ и вы залогинены в поиск, то когда вы ищете, он вам покажет документы и картинки, которыми ваши друзья поделились в социальной сети Google+.

Правильно я понимаю, что за этим стоит некая фундаментальная идея о том, что все перечисленное как-то релевантно? Что, например, предыдущие запросы человека связаны с тем, что он ищет сейчас? Или что для большинства пользователей Google+ интересы их друзей каким-то образом коррелируют с их собственными интересами. Эти гипотезы берутся на веру или они как-то доказаны?

Безусловно, любой алгоритм, который мы внедряем, проходит тестирование. И результаты показывают, что большему числу людей нравится больше с персонализацией, чем без. Понятное дело, всегда будут довольные и недовольные.

Google точно умеет исправлять случайные опечатки в вопросах, а как обстоит дело с ответами — индексируемыми текстами? Если опечатка имеется в самом тексте, то он не попадет в выдачу по «правильному» запросу?

Вы не первый, кто задает этот вопрос. Что касается наиболее общих опечаток, то, как правило, не вы один сделали такую опечатку. Самые простые примеры — это переключение кириллица-латиница или ошибки в кириллице, которые люди делают чаще всего. Если речь идет о совершенно редких вещах или именах собственных со сложным написанием, то скорее всего большинство людей так не ищут. Они вводят запрос какими-то более простыми словами, которые говорят о том же самом факте. Редко ищут новости по именам людей, если можно написать, там, я не знаю, «взрывы в Бостоне». Совершенно необязательно писать полное сложное название.

Понятно. Тогда расскажите про Google-бомбы. Удается ли вам с ними бороться? Вот у нас есть хороший пример про «партию жуликов и воров», который дает ссылку на «Единую Россию», а английский еще предлагает «Единая Россия» и «Единая Россия сайт».

Я вчера пробовал, не дает мне «Единую Россию». Это не совсем правда.

Да? У меня даже скриншот был. Может быть, уже поправлено.

«Поисковая бомба» — это конкретная попытка манипулировать результатами поисков с тем, чтобы насмешить кого-то или вызвать раздражение. Это проблема не новая, существует примерно с 2000 года, как вы знаете. В свое время, если вы помните, на запрос More Evil Than Satan Himself («большее зло, чем сам сатана») первой ссылкой появлялся Билл Гейтс, Miserable failure («досадная ошибка») — Джордж Буш, и таких примеров достаточно. У нас давно есть алгоритм, позволяющий обнаруживать «поисковые бомбы» и фильтровать результаты, которыми люди пытаются манипулировать. Это основано приблизительно на таких же вещах, как фильтрация любой другой манипуляции с поисковой машиной. А что касается автозаполнения, то это отражение поведения среднего пользователя, как вы понимаете. В конечном итоге Google — это машина, в ней нет никаких мнений, или предпосылок, или предпочтений. Все, что она умеет, это очень быстро сортировать. Собирая статистику сортировки, мы, собственно говоря, показываем результаты.

Самым известным примером поисковой бомбы в Рунете в 2011 году стала фраза «партия жуликов и воров»: поисковые системы, вторя оценочному суждению Алексея Навального, стабильно выдавали на первом месте сайт «Единой России».

Из фразы «партия жуликов и воров» достаточно убрать любое слово, и во всех четырех вариантах сайт «Единой России» вновь окажется в первой пятерке выдачи Google. А если напрямую погуглить «жулики и воры», то сайт партии власти займет в выдаче первое место.

Впоследствии выдача по этой фразе была подчищена от политического поискового спама, и, возможно, это было сделано вручную.

Поисковая бомба — это такой запрос, на который поисковая система выдает формально нерелевантный и неожиданный для стороннего наблюдателя результат. Она, как правило, целенаправленно формируется группой людей, линкующих на индексируемых страницах (посты, комментарии) ключевую фразу со ссылкой на сайт выбранной «жертвы».

С автоматическим заполнением часто возникают вопросы, потому что иногда создается впечатление, будто мы пытаемся навязать вам информацию — вы напечатали одно слово, а мы предлагаем второе. Но я хочу заметить, что у нас существуют строгие рекомендации о том, что мы фильтруем в этих запросах, а что нет. Если вы специфические спрашиваете какие-то вещи, то, понятное дело, мы должны их показать. Но что касается тем, связанных с порнографией, с какими-то ругательствами, нецензурщиной, оскорблениями, не знаю, «сколько стоит мой труп»… то мы не будем предлагать такой вариант по поиску «сколько стоит...»

Остальное остается в органичном виде. Если люди задают какие-то определенные вопросы… Это легко увидеть, набрав любую нацию: «Americans are», «Russians are», «Россия это», — увидеть все, что среднестатистический человек, например, думает о России. Понимаете, это как если рожа крива, то нечего на зеркало пенять. В какой-то степени Google — это зеркало, мы не пытаемся манипулировать, не надо жаловаться.

Как эти автозаполнения реализуются — подбираются? Просто выявляются самые популярные, а потом фильтруются, так?

По большей части да. Это наиболее популярные, которые не ведут к неоднозначным материалам

А кто решает, что они ведут?

Алгоритм. Он достаточно сложный, но основан на простых принципах. Во-первых, это запросы, которые вы видели, — мы не придумываем запросы, это реальные пользователи их ввели. Необходимо, чтобы минимальное количество пользователей этот запрос задали из разных точек, чтобы среди них нельзя было найти запрос от конкретного человека. И после этого там вычисляются вещи, связанные с содержанием, которое мы считаем неприемлемым.

Один из вариантов расчета метрики DCG
DCG метрика является одной из старейших в классе так называемых градуированных (graded) метрик оценки качества поиска. Ее входными параметрами являются первые n документов выдачи и средняя оценка релевантности каждого документа (grade(p) для документа номер p), выставленная тестовой группой. Традиционно оценки выражаются небольшими целыми числами: 0 (нерелевантно), 1 (скорее нерелевантно, чем релевантно), 2 (скорее релевантно, чем нерелевантно), 3 (релевантно). Кроме этого, учитывается положение документа в выдаче — оценки первых мест в выдаче «весят» больше, чем последних. В формуле это выражено в наличии знаменателя, значение которого уменьшается с уменьшением номера p.

При оценке уникальности страниц Google ставит выше оригинал, а «копипасту» ниже. Скажите, насколько сложно провести обратную работу, то есть оценить уникальность конкретного текста, скажем, на странице, используя технологии Google?

Действительно, хорошо известно, что учителя часто пользуются Google, когда ученики приносят рефераты, и становится сразу понятно, если ученик списал. В этом плане Google является наиболее полным индексом веб-страниц, и если какой-то контент когда-то был в интернете опубликован, то Google его найдет и покажет, что этот текст не новый.

Конечно Google показывает только то, что доступно в интернете. Но существует еще огромное количество информации, которая содержится в журналах, газетах, каких-то отчетах, разных изданиях, книгах, которых в интернете нет, и вот этой информации мы найти не можем.

Что касается определения авторства, кто напечатал первым, то это на самом деле проблема совершенно нетривиальная. И у нас есть два подхода. Прежде всего, мы алгоритмически пытаемся определить, кто является автором какой-то информации, какой-то статьи, если мы видим, что в интернете присутствуют дубликаты. И автор в основном определяется по тому, где мы нашли этот контент, кто опубликовал эту статью первым и кто является более популярным.

Первой оказывается та статья, которую первой нашел ваш робот?

Не совсем так. Мы пытаемся найти более точную дату публикации, например, внутри текста статьи. Еще один фактор связан с популярностью. Предполагается, что более популярный сайт является и более авторитетным. Кроме того, честные люди, когда берут у кого-то контент, указывают, что эти материалы с такого-то сайта, такого-то автора.

Это все решается на уровне алгоритмов. Можно посмотреть на метрике Ашманова, что Google в России по нахождению оригиналов показывает очень хорошие результаты. Мы также предлагаем использовать markup, когда можно сказать, что вы являетесь автором этого документа или статьи. И тогда, если статья появляется в веб-результатах, будет показан ваш профиль, с вашей фамилией, вашей фотографией. Это дополнительный способ показать, кто, собственно говоря, хозяин.

Правильно я понимаю, что никакого сравнительного анализа текстов не производится на таком уровне? Например, если один текст вышел позже и немножко переписан.

Эту задачу достаточно сложно решить. А если он переведен? А если переведен автоматически? Часто вообще берут текст, режут его на куски, лепят из них новый, чтобы получить трафик. Я думаю, что честному автору бояться нечего. Если вы публикуете контент на более или менее нормальном источнике, у которого есть хоть какая-то репутация, она никуда не денется.

Тут такая вещь. Ситуация, когда публикация интернет-контента была поставлена на промышленные рельсы, присутствует на многих рынках, не только в России. Были созданы просто бизнесы, которые совершенно дешевым способом за маленькие деньги пишут вам статью на любой предмет поиска. Такие статьи не отвечают на вопрос пользователя. «Как организовать день рождения?» — «Чтобы организовать день рождения, нужно купить тарелки, торт, свечки». Для пользователя никакой ценности в этой информации нет. И те люди, которые разместили эту информацию, совершенно ничего не знают о предмете. «Как выбрать холодильник?» — «Чтобы выбрать холодильник, нужно решить, в какое место его поставить». Это не работа с информацией, а переливание из пустого в порожнее.

Этот контент явно не был сделан для людей, он был сделан для поисковой машины, чтобы ее обмануть. Мы стараемся такой контент в ранжировании понизить. Не знаю, насколько хорошо мы справились с этой работой, это вам судить. По нашим метрикам показывается, что это улучшение. На сегодняшний момент совершенно ясно видно, что такого контента стало гораздо меньше.

Я еще хотел спросить про новости. Новости — это же контент, который появляется постоянно. Как вы работаете с ним?

Материалы по теме:

Гуглодудлы"Лента.ру" вспоминает лучшие "дудлы" от Google

24 марта 2011

Для новостей у нас есть отдельная система, которая использует разные механизмы так называемых пингов (ping). Это такой механизм, который оповещает Google, что появился новый контент на сайте. И, используя эту информацию, Google приоритизирует информацию на основе того, насколько сайт авторитетный, насколько часто меняются страницы. Для новостей важнее, что контент просто появился.

А качество робот анализирует? Ну, просто новости же бывают разные. Можно быстро написать новость, что что-то произошло, одной фразой, а можно чуть попозже написать, что произошло то-то и то-то, там-то и там-то, пострадало столько-то человек (взять ту же историю с Бостоном). И что будет в данном случае более качественным контентом — тот, который появился раньше, или тот, в котором больше подробностей?

Понимаете, я не могу ответить конкретно о какой-то статье. В целом для новостей время публикации это важный фактор. Анализ же качества проводится по большей части на уровне источников.

Это делается вручную или как-то иначе? Каким образом?

Мы просто вычисляем в среднем, насколько пользователям нравится какой-то источник

По выдаче?

По выдаче, да.

Это тоже делается по референтной группе?

В основном это делается по анализу рейтингов. Если с этого источника новость лучше, чем с этого, то он получает больший авторитет

Но лучше — это означает, что туда чаще люди заходят?

Да.

А разве это релевантно? Ведь есть же издания наподобие «Комсомольской правды», с которыми по этому показателю совершенно невозможно соревноваться.

Не надо путать. У изданий разные сегменты рынка, разные аудитории. Это отражается на результатах запросов.

То есть я правильно понимаю, что там еще какое-то ранжирование существует?

Да, безусловно.

А как оно связано с репутацией?

У нас есть сигналы, которые мы используем, связанные с сайтами, с конкретными страницами, с содержанием на этой странице, с запросом — насколько он соответствует странице.

Главная страница Google, 1997 год

То есть у источника есть некий набор параметров или характеристик? То есть вот этот источник — популярный, желтый и так далее?

Безусловно, у каждого источника есть приблизительная категория: наука, спорт, что-то еще.

Нет, я имею в виду не тематическую категорию, а репутационную. Имеется ли какая-то репутационная градация?

Я не могу вам конкретно говорить, как работает поисковая машина, но в основном мы пытаемся определить источник, который наиболее подходит к тому запросу, который посылает пользователь.

Все опять возвращается к пользователю, короче?

Да.

То есть Google не берет на себя ранжирование источников по, например, репутационным параметрам?

Ни в коем случае.

Значит, если пользователь, например, в массовом порядке предпочитает LifeNews в качестве источника новостей, то у LifeNews по такой логике репутация всегда будет выше. Но ведь в действительности есть издания с куда более высокой репутацией. Ну, грубо говоря, есть «Ведомости», есть «Коммерсантъ», а есть газета «Твой день». И на газету «Твой день» всегда будет больше ссылок, потому что новость о том, что Пугачева сделала себе очередную подтяжку, более популярна, чем новость о падении индексов на золото.

Есть вполне известная вещь, которая связана с тем, что люди читают и чем люди делятся. Вот, например, если вы возьмете категорию, связанную с наукой, то там соотношение примерно один к одному, то есть они что читают, тем и делятся. А что касается, например, всяких скандальных новостей про актеров, то их читают-то многие, но делятся ими очень мало. И это безусловно один из факторов — если люди не делятся этой статьей или этим источником в своей социальной сети.

Учитываются ссылки в Google+ или в каких-то других социальных сетях?

Мы учитываем столько информации, сколько можем.

Как отличается отечественный интернет-контент от западного?

Если вы посмотрите на случайный набор запросов в Америке и на случайные запросы в России, то разница получается порядка десяти очков в пользу США. Разрыв в десять очков означает, что разница в недостатке информации, которую ищут в интернете среднестатистические пользователи в Америке и в России и не могут найти, эквивалентна размеру в двадцать «Википедий». Вы когда-нибудь видели «Википедию» напечатанную, как книгу? Она была бы высотой порядка 10 метров, это 4 миллиона страниц, совершенно нетривиальное количество информации.

В поисковой машине мы можем улучшить алгоритмы, но это не идет ни в какое сравнение с тем, что можно сделать, если создавать контент, который кого-то интересует. Мы же постоянно наблюдаем совершенно неудержимый аппетит к контенту, защищенному копирайтом, — скачать рефераты, домашние задания, фильмы, музыку бесплатно и так далее. Тут мы ничего поделать не можем. Еще одна проблема связана с тем, что в сети в принципе отсутствует информация, которую люди ищут, типа «уйгурский криминальный авторитет» — контента в интернете нет. И что с этим делать поисковой машине, я не знаю.

Ножом ножи целует фото «Лента.ру» выяснила, чего нельзя найти с помощью Google

Последние новости