Разговор с … Яндексом

Набрел на интересную статью в инете…

Нужно будет распечатать и читать по утрам…

Автор: Андрей Шипилов

Вот уже несколько месяцев по всем вебмастерским и оптимизаторским форумам интернета идет активная волна обсуждений по поводу того, какое огромное количество сайтов вылетело с начала осени из поискового индекса Яндекса.

Высказывается много разных предположений и догадок, количество версий перевалило за несколько десятков. Насколько они близки к истине – можно только гадать.

При этом никто почему-то никто не догадался спросить у самого Яндекса. Я ждал-ждал, пока кто-то спросит, потом решил спросить сам.

Яндекс – ответил. Четко, откровенно и подробно.

Итак, мои собеседники:

Технический директор Яндекса Илья Сегалович.

Руководитель отдела веб-поиска Александр Садовский. Руководитель группы отдела веб-поиска Сергей Певцов.

Часть 1. Хорошие сайты – не выбрасывать!

Андрей Шипилов: В последнее время на многих интернет-ресурсах особенно часто стало высказываться мнение, что Яндекс исключает из своего поиска большое количество сайтов, и причины, по которым он это делает, далеко не всегда понятны. Я тоже вижу признаки такой тенденции. Лично для меня очевидно, что это происходит вследствие попыток Яндекса улучшить качество своего поиска за счет выбрасывания из него «мешающих» сайтов, но чем именно Яндекс при этом руководствуется – понять очень непросто. Можно ли говорить о появлении некоей цензуры со стороны Яндекса? По каким критериям происходит отсев сайтов?

Илья Сегалович: Прежде всего, я хочу сразу сказать, что определенные санкции к каким-то сайтам с нашей стороны действительно могут иметь место – но это ни в коей мере не цензура. Когда речь заходит о «пессимизации», «фильтрации» и прочих ограничительных мерах со стороны Яндекса по отношению к тем или иным сайтам, то речь не идет об оценке смыслового содержания этих сайтов. Ни к одному сайту никогда не будут применяться никакие ограничительные меры исходя из политических, религиозных, моральных резонов или из-за того, что точка зрения, пропагандируемая сайтом, кого-то не устраивает.

Ограничительные меры применяются только исходя из качества сайтов, причем употребляя термин «качество», мы имеем в виду исключительно способность сайта влиять на качество и релевантность нашего поиска. «Некачественный» с нашей точки зрения сайт, то есть тот, к которому могут быть применены ограничительные меры, это сайт, который в силу тех или иных причин создает помехи в поисковой выдаче, мешает поисковой машине в ее работе, ибо в текущей модели ранжирования мы не можем его корректно отранжировать (проще говоря, он занимает неприемлемо высокое место по не соответствующим ему запросам). Это мешает пользователям в поиске нужной информации. Других критериев для применения санкций к сайту быть не может.

Отдельно хочу отметить, что, когда мы строим выдачу и анализируем запрос (и найденные документы ответа и историю поискового поведения по данному запросу), мы решаем попутно задачу повышения качества ответа в целом, качества представления всей страницы.

В частности, в нашей системе оценок есть оценка «явная глупость» — когда ответ не просто нерелевантен, он вызывает у пользователя отторжение и удивление по поводу работы поисковой системы.

Такие оценки получают ссылки, содержащие неудачное синонимическое расширение слова запроса или какую-нибудь морфологическую форму, которая несет совершенно другой смысл, чем слово в запросе, иными словами, эту оценку получает текст, диаметрально иного смысла, чем смысл заданного запроса.

Ровно в этих рамках (борьба с «глупостью») мы относительно недавно реализовали алгоритм определения запросов и ответов, которые можно трактовать двояко: и как поиск эротического и порнографического содержания, и как невинный информационный запрос. Например, запрос [девочки] может быть поиском повести Людмилы Улицкой, а вовсе не «девочек по вызову». Для человека, ищущего Улицкую, ответ с порнографией не просто нерелевантен, он «явная глупость».

Опираясь на классификаторы запросов и сайтов по порнографическому и непорнографическому содержанию, и построив соответствующие метрики, отражающие долю резко нерелевантного поведения нашей системы по «двояким» запросам, мы смогли реализовать механизм понижения в выдаче сайтов порнографического содержания.

При этом, важно заметить, что никакой модификации не подвергается ответ на запрос, у которого по нашему мнению (выраженному в алгоритмической оценке поисковой системы) нет иной интерпретации, кроме порнографии.

Андрей Шипилов: И насколько сильно такие «некачественные» сайты искажают выдачу поисковой машины?

Александр Садовский: Пытаются испортить выдачу – очень сильно. Но реальное влияние, «внешний выход» у всех таких сайтов в настоящее время стремится к нулю. Мы давно научились отслеживать попытки повлиять на поисковую выдачу и нивелировать их. По нашим данным, нам это удается.

Андрей Шипилов: Понятно, что вебмастера при помощи тех или иных методов оптимизации стараются поднять свой сайт в выдаче поисковой машины на верхние позиции. Очевидно, в стремлении сделать это вебмастер может нечаянно, не ставя перед собой цели нанести вред поисковой машине, переступить некую границу, после которой вы сочтете, что его сайт недопустимо влияет на качество поиска. Как вы определяете эту границу? Как вы страхуетесь от возможных ошибок в определении этой границы?

Александр Садовский: Мы старается соблюдать баланс интересов и вебмастера, и пользователя поисковой системы. Когда эти интересы вступают в конфликт, то мы всегда решаем этот конфликт в пользу пользователя пусть и в ущерб вебмастеру. Если же конфликта нет, то нам не жалко делиться с вебмастером ни трафиком, ни чем-то еще (сервисами через API, информацией о его сайте и т.д.). Мы, наоборот, готовы помогать, чтобы его сайт искался лучше, предоставлять соответствующие сервисы, интерфейсы, и мы делаем это.

Илья Сегалович: Я хочу сказать по поводу возможных ошибок. Мы понимаем, что вполне возможна ситуация, когда из-за ошибок или несовершенства алгоритмов качественные сайты могут либо не попасть в поиск, либо занять в его результатах ненадлежащую позицию.

У нас есть такая метрика: «Не выкидывать хорошие сайты».

Что мы делаем: по ряду запросов мы мониторим выдачу других поисковых машин, всех, кто хоть как-то ищет по-русски, включая все версии самого Яндекса — рабочую версию и внутренние, экспериментальные (у Яндекса много версий). И складываем все результаты в один котел. Если какой-то сайт присутствует в этом «котле», если он там имеет достаточно хорошие оценки, и при этом отсутствует в Яндексе, мы начинаем разбираться – почему. Причины могут быть разные. Чаще всего причина банальна – плохо отранжировался. Следующая причина – этот документ есть у нас в базе, но в выдачу не попал: так обычно бывает, если мы не сделали нужное синомическое расширение – человек искал по какому-то слову, а в базе был его синоним, искал «Ленинка», а в базе было «Библиотека Ленина».

И наконец, самая редкая причина – документа нет в нашей поисковой базе. И вот тут мы начинаем смотреть, по какой причине он не попал в нее. Да, кстати, говоря «смотреть», я не имею ввиду «смотреть глазами», это все делают алгоритмы, автоматически. Если документа в базе нет, мы смотрим, известна ли нам ссылка на этот документ. Как правило – известна, нам известно чудовищное количество ссылок, на порядки больше, чем наша база документов. Далее смотрим, а был ли скачен документ по этой ссылке – он ведь мог просто не скачаться по техническим причинам. Далее смотрим, какими метриками этот документ обрабатывался – вдруг он не попал в базу, потому что наши алгоритмы сочли его некачественным? Тут могут сыграть роль ссылки, которые на нем стоят, ссылки, которые на него ведут, дублированность контента, признаки сгенерированности текста, его неестественность – у нас много критериев. Мы считаем определенную сумму баллов, и когда сумма баллов превышает некий порог, мы сайт выбрасываем из поиска.

Мы очень тщательно отслеживаем долю документов, не попавших в выдачу, и если обнаруживаем качественный документ, который мы незаслуженно запессимизировали, мы вносим соотвествующие изменения в алгоритмы. И могу с уверенностью сказать, что доля таких сайтов у нас очень маленькая. Мы тщательно следим, чтобы она не увеличивалась, мы стремимся к тому, чтобы она уменьшалась.

Александр Садовский: Чтобы было понятно, «котел» какого объема оценивается, подчеркну, что это речь идет о десятках тысяч запросов, которые мы проверяем таким образом. Мы проверяем первые 30 позиций по каждому запросу. Считайте: десятки тысяч запросов, умножить на 30 первых позиций, умножить на количество версий, — это десятки миллионов URL. Все обнаруженные сомнительные случаи проверяются и, если необходимо, вносятся коррективы в алгоритмы. Мы уделяем огромное внимание этой проблеме.

Андрей Шипилов: Значит ли это, что любой качественный сайт, попавший в результате ошибки под пессимизацию, будет с течением времени автоматически реабилитирован?

Александр Садовский: Не обязательно. Ведь запросы для проверки выбираются случайным образом. Вот допустим, наш алгоритм обнаруживает на каком-то сайте страницу со словом «порно» и неадекватное нагромождение всяких порнографических терминов. С очень высокой долей вероятности мы имеем дело с сайтом, противоречащим поисковой лицензии, и алгоритмы принимают решение об исключении такой страницы. Но есть маленькая вероятность, что это, например, был текст законопроекта о порнографии. Если в результате случайной выборки нашей метрикой будет произведена проверка запроса «порно», и мы обнаружим этот случай, мы внесем изменения в алгоритмы, и все сайты, которые были пессимизированы из-за этой ошибки, с течением времени будут реабилитированы. Но если проверка по запросу «порно» не будет проведена, мы об этом случае не узнаем. Поскольку, повторюсь, запросы для проверки выбираются так, чтобы репрезентировать выборку в целом, но попадание конкретного запроса или URL – дело случая. Мы не можем дать гарантию реабилитации для каждого конкретного сайта, если ошибка нетипичная, и вебмастер нам не напишет.

Часть вторая. Робот «Платон Щукин»

Андрей Шипилов: Может в таком случае помочь обращение в вашу службу техподдержки? Если владелец сайта уверен, что его сайт пострадал незаслуженно и обращается в техподдержку, каковы шансы, что проблема будет разрешена справедливо?

Илья Сегалович: Тут надо понимать вот что. Те, кто создает сайты, предназначенные для манипуляции поисковой выдачей, – это, как правило, очень неглупые люди, многие из них имеют хорошее профильное образование. Кое-кого из них я лично знаю по совместной учебе и отношусь с уважением к их способностям. И подходят они к своей проблеме (а проблема эта называется «заспамить Яндекс») по-научному.

Что они делают: они применяют так называемый метод половинного деления. Сначала создаются откровенные псевдосайты, которые, понятное дело, выбрасываются из выдачи. Потом в ход идут заведомо качественные сайты, которые не могут быть выброшены, и далее, двигаясь с двух сторон, методом половинного деления находят ту «серую зону», где можно играть с поисковой машиной. Где можно создавать сайты, которые с одной стороны выглядят достаточно качественными, чтобы ускользать от автоматической пессимизации, а с другой — не являются по сути качественными, и не требуют, чтобы на их создание тратились заметные ресурсы.

Так вот, практически все обращения в службу техподдержки — я думаю, в цифрах это будет более 90% — касаются именно таких сайтов из «серой зоны». Пишут грамотные аргументированные письма: «А вот смотрите, почему вы этот сайт выбросили, он качественный, контент уникальный, ссылки по теме. Объясните почему.» Цель таких писем – методом перебора уточнить безопасные границы в этой «серой зоне». Предприняли какое-то действие – смотрят результат. Если результат отрицательный, сайт попал под санкции, они пытаются получить от нас обратную связь, проанализировать причины.

Сергей Певцов: И именно потому, что такие обращения прежде всего направлены на то, чтобы нащупать слабые места в наших алгоритмах, мы не можем давать ответ с указанием конкретной причины.

Андрей Шипилов: Это я могу понять. Я сам, будучи регистратором Вебмани, регулярно оказываюсь в такой же ситуации. Если ко мне приходит человек за персональным аттестатом, и я по определенным признакам вижу, что аттестат он хочет получить с криминальной целью, я никогда не сообщу ему эти признаки. Иначе он их учтет, скорректирует свои ошибки и получит аттестат у другого регистратора.

Но возможно именно такая политика приводит к тому, что часто приходится слышать, будто на письма в саппорт Яндекса всегда отвечает робот, который подписывается как «Платон Щукин».

Сергей Певцов: Конечно, отвечает не робот, при этом надо понимать, что на вопрос о типовой ситуации последует типовой ответ. Тут играет роль степень нашей уверенности, что мы поступили правильно. Если она у нас чрезвычайно высока, то, разумеется, нет смысла тратить много человеческих ресурсов на то, чтобы сообщить очередному дорвейщику, что он сделал очередной дорвей. Если такой твердой уверенности нет, или если мы видим, что ситуация сложная, то ответ всегда дается персональный и ситуация внимательно изучается. Но все же, как показывает практика, большинство сайтов, по поводу отсутствия которых в выдаче к нам обращаюся вебмастера, создавались специально с целью обмана поисковой системы и манипуляции результатами поиска.

Александр Садовский: Я хочу заметить, что если мы видим, что имела место ошибка с нашей стороны, то в алгоритмы вносятся изменения, улучшающие работу системы в целом, и это касается других сайтов, которые тоже могли бы пострадать в аналогичной ситуации. Мы очень внимательно относимся к этой работе, и если делать прогноз, то процент таких «пострадавших» сайтов будет все время снижаться.

Сергей Певцов: Кстати, хочу заметить, что каждое обращение изучается очень внимательно. Поток обращений очень большой, но это правило неукоснительно соблюдается. Ни одно письмо не остается без ответа. И если вам кажется, что на ваше письмо отвечают слишком долго (а обычно мы отвечаем в течение трех дней), то это говорит не о том, что к вам отнеслись невнимательно, а наоборот о том, что над вашей проблемой работают с особым вниманием и ее решение требует времени.

Часть 3. Уникальность не догма

Андрей Шипилов: хотелось бы поднять еще одну популярную тему под названием «уникальность контента». У вас на сайте написано, что Яндекс не одобряет наличие на сайте «неуникального контента», а в кругах вебмастеров ходят упорные слухи, что Яндекс «выбрасывает из индекса» сайты, на которых присутствует контент, скопированный с других сайтов. Я сам был свидетелем такого случая. Один известный мне онлайн-магазин транслировал на своей витрине ленту новостей, автоматически скопированных, или как еще говорят «спарсенных» с других сайтов, причем делал это легально по договору с правообладателями. Посетители магазина были довольны таким подходом. Но сайт магазина, тем не менее, был запрещен к индексации.

Александр Садовский: Вот вы сказали прекрасную фразу: «Пользователь доволен». Но ведь если вебмастер сайта, копируя чужие новости, в заголовке страницы или в Robots.txt поставит запрет индексации этих новостей, то это никак не уменьшит положительных эмоций пользователя. Но сайт от санкций спасет.

И кстати, наши критерии ведь не ограничиваются статистическим исследованием текста, и уникальность материалов – не единственный и даже не главный показатель. «Удовлетворенность пользователя» — не менее важный критерий.

По большому счету наша цель как раз и состоит в том, чтобы пользователь был доволен. И у нас есть средства, позволяющие оценить способность сайта решить ту или иную пользовательскую задачу, формализовать эту характеристику, обратить в цифры и использовать эти цифры при оценке качественности сайтов. Уверяю вас, что если мы видим, что «пользователь доволен сайтом», то это как минимум резко понизит вероятность попадания такого сайта под санкции.

Сергей Певцов: Еще раз подчеркну: уникальность контента совсем не определяющая вещь. О ней много говорят, но более важная характеристика — не уникальность, а полезность контента. Цель, с которой этот текст размещается. Сейчас есть программы, которые способны сгенерить мегабайты уникальнейшего и совершенно бессмысленного текста. Сейчас есть сканеры и программы распознавания текста, и это тоже средство заполнения сайтов уникальным контентом . И тут опять-таки надо четко понимать, с какой целью все это делается. Если это ставится на поток — быстрее-быстрее все выложить на сайты, чтобы хоть как-то их заполнить, если все это не вычитывается, а прямо так, с ошибками распознавания, вываливается в интернет, дробится на мелкие абзацы, форматируется как попало, сверх меры обвешивается рекламой – вряд ли такой сайт будет полезен посетителю, его будет просто неудобно читать.

А если то же распознавание делается тщательно, любовно, с действительно полезной целью, если при этом не жалеются время и силы, чтобы придать документу удобочитаемый вид – такие вещи тоже замечаются и оцениваются. Если человек проделал полезную работу – это более важная вещь, нежели формальная «уникальность».

Александр Садовский: Другой способ получения «уникального» контента – рерайтинг. Когда берется новость и переписывается, подбираются синонимы. Иногда это делается автоматически, программами-синонимайзерами. Потом пишут нам, возмущаются «как же так, текст уникален, а вы его выкинули, смотрите, вот такая-то фраза больше нигде не встречается, и вот такая…» Конечно, задача вычисления синонимизированного текста – это решаемая задача, мы можем во многих случаях это делать.

Но все это – лишь показатель того, каким образом многие люди реагируют на слово Яндекса о том, что мы ценим уникальные тексты, и как они механически пытаются обойти надуманную для себя проблему именно с целью заспамить Яндекс, а не создать что-то полезное.

Часть 4. Копипейст и приоритет

Андрей Шипилов: И коль скоро речь у нас зашла об уникальности контента, я бы хотел поднять близкую тему, воровство контента. Ситуация банальна: человек создал сайт, пишет хорошие тексты, эти тексты у него воруются и размещаются на множестве других сайтов. Кончится это может печально. Если поисковая машина не сможет разобраться, кто у кого украл, то она может запросто подвергнуть санкциям «за неуникальность» и сайт самого автора текстов.

Александр Садовский: Действительно, задача определения оригинала – очень сложная. Ее можно было бы решить, если бы у нас был бы мгновенный слепок информации по всему Рунету. В настоящее время у нас есть такой слепок по его новостной части, где мы может отследить первоисточник той или иной новости от новостного агентства с точностью до минуты. Что касается остальной части, то мы можем сказать себе, что велика вероятность того, что этот документ является первоисточником, но гарантии пока дать не можем. Робот может зайти на сайт чуть раньше или чуть позже, страница может оказаться недоступной и т.д. Но проблема не только в этом.

Если речь идет о старом сайте, то, к примеру, пять лет назад алгоритмов отслеживания первоисточников еще не существовало. Сейчас они есть, они все время совершенствуются, но вот старым сайтам они, к сожалению, уже ничем не могут помочь.

Сейчас мы стремимся к тому, чтобы оригиналы документов оказывались в выдаче выше копий. Если мы видим, что ситуация противоположная, то такую ситуацию мы однозначно трактуем как ошибку и принимаем меры к ее исправлению — обучаем алгоритмы, совершенствуем их.

Андрей Шипилов: И все-таки, что делать человеку в такой ситуации, которая, к сожалению, достаточно распространена. У него украли контент, наделали копий его сайта. Яндекс находит копии выше оригинала, потому что не может определить факт воровства. Человек пишет в саппорт, саппорт не может ему в такой ситуации помочь. Что делать?

Александр Садовский: Если человек действительно сам создал свой сайт, если он дорожит этим сайтом и готов бороться за него, то любые позитивные усилия с его стороны не останутся незамеченными. Если уж он смог создать контент такого качества, что его воруют, ничто не мешает ему продолжить совершенствовать свой сайт, создавать и дальше полезный контент, так что динамика его развития по сравнению с клонами станет очевидной. В ранжировании используются сотни факторов и усилия по развитию сайта не останутся незамеченными.

Сергей Певцов: Хочу уточнить. Вот вы сказали: «Саппорт не может помочь». Собственно, это не есть задача саппорта. В любой ситуации, когда у сотрудника саппорта возникает сомнение, он передает задачу аналитикам и потом только транслирует вебмастеру их решение или рекомендацию. К сожалению, далеко не всегда, если говорить именно о подобной ситуации, аналитик в состоянии понять, кто тут прав, кто виноват. И очень многое тут зависит от того, каким образом клиент сформулировал проблему, какие факты он привел. Зависит от того, насколько грамотно и внятно вебмастер объяснил, что у него случилось, почему он считает, что произошла ошибка с нашей стороны, и как он аргументирует это.

Часть 5. Политика борьбы с поисковым спамом.

Андрей Шипилов: Ходят упорные слухи, что с начала осени Яндекс повел бурное наступление на сайты, торгующие SEO-ссылками. Как вы можете это прокомментировать?

Александр Садовский: У нас был только анонс наружу алгоритма АГС-17, — возможно, это привлекло внимание и создало видимость «запуска» какой-то кампании по борьбе. Действительно, периодически мы запускаем новые алгоритмы, которые отлавливают новые типы спама, но это непрерывная, текущая работа. Возможно, осенью стал отлавливаться спам, который раньше сходил с рук. Но называть это стартом какой-то кампании неправильно.

На конференции в Харькове со стороны биржи ссылок Sape была озвучена такая статистика: около 20% сайтов, которые торговали SEO-ссылками на этой бирже, перестали учитываться Яндексом. Хочу подчеркнуть, что речь шла не о нормальных сайтах, а именно о сайтах, созданных исключительно для торговли ссылками. Этот факт говорит о том, что наши алгоритмы стали работать лучше. Я хочу подчеркнуть, что и со стороны биржи SAPE прозвучала ровно та же оценка ситуации. Докладчик заметил, что биржа изначально создавалась как инструмент помощи вебмастерам, а не как инструмент для спама. И что сейчас «ушла» именно та часть заведомо некачественных сайтов, которая служила для заспамливания, и которая мешала в том числе и работе самой биржи.

Сергей Певцов: Я хочу обратить внимание на то, что и по нашим оценкам около 20% сайтов, появившихся с начала этого года, созданы исключительно для поискового спама. Согласитесь – это ненормально. Эти сайты создают помехи поиску, они не несут абсолютно никакой ценности для пользователя. Разумеется, нам не выгодно появления такого количества бесполезных сайтов. И, разумеется, мы с ними боремся и будем бороться.

Андрей Шипилов: Имеет ли смысл исключать сомнительные сайты из выдачи, если можно с тем же успехом просто нивелировать их влияние?

Александр Садовский: Мы именно так и делаем, когда есть такая возможность. Но она есть далеко не всегда.

Сергей Певцов: Не говоря уже о том, что это требует дополнительных ресурсов. Чтобы только обойти эти двадцать процентов бесполезных сайтов, надо потратить немало времени, не говоря уже об обработке и хранении информации.

Александр Садовский: Давайте рассмотрим гипотетическую ситуацию. Мы обнаруживаем на сайте тысячи страниц автоматически сгенеренного бессмысленного текста. Какова вероятность в такой ситуации, что десять оставшихся страниц, которые выглядят, как нормальные, на самом деле сделаны для пользы посетителей? Логика подсказывает, что нормальный вебмастер не стал бы размещать такое количество мусорного текста на нормальном сайте, и, скорее, мы имеем дело с попыткой обмана.

Тем не менее, даже в такой ситуации, если мы видим, что какая-то часть сайта нормальная, мы стараемся оставить эту нормальную часть в индексе и накладываем фильтр только на мусорную часть.

Сергей Певцов: Я хочу добавить еще, что в последнее время участились случаи, когда на совершенно нормальных сайтах в результате взлома, какой-то вредоносной атаки, недобросовестности сотрудников появляются мусорные страницы. В такой ситуации было бы совершенно неправильно закрывать весь сайт от индексации. И тут мы действуем максимально «точечно» — закрываем только мусорные или вредоносные URL, предупреждаем владельцев сайта о возникшей у них проблеме.

Александр Садовский: Поисковый спам – это еще и социальное явление. Спамеры на этом зарабатывают, создаются дочерние рынки, например, рынок инструментария для спама. Это огромная сложная структура. Если мы будем бороться с этим явлением только фильтрацией части контента, мы всегда будем отставать на шаг и неизбежно проиграем. У нас будет страдать полнота поиска, а у них – оставаться свобода для маневра в поисках всяких лазеек. Закрывая сайт, то есть воздействуя на этот рынок экономически, мы лишаем спамеров этой свободы маневра. Поэтому закрытие сайта в поиске (в том случае, если мы абсолютно уверены в том, что он «плохой») это еще и социал

ProGGear.ru

Разговор с … Яндексом

Leave a comment Отменить ответ

Страницы

Архив

Рубрики

WordPress

Подпис