dimokru ([info]dimokru) wrote,

Как я боролся с Yahoo! Slurp

Возможно, это покажется забавным, но и я правда с ним борюсь в настоящее время. Причины читайте ниже. Еще ниже несколько решений.

О проблеме

Давно не секрет, что поисковые боты прожорливы. И это не беда, а большая радость, когда они приходят индексировать ваш сайт. Но что делать, когда сайт не один?

Мне всегда нравилось смотреть за динамикой заходов поисковиков на новые сайты. Но на прошлой неделе огромный интерес у меня вызвала активность яхубота на ВСЕХ моих сайтах (онлайн магазины, порталы, каталоги, форумы, блоги и т.д.) - он просто озверел. Яхубот легко и непринужденно положил один из моих серверов многочисленными обращениями (и это при том, что сервак этот выдерживал посещаемость в миллионы юзеров в сутки).

Многие наверняка в курсе, что не так давно Яху побанил множество сайтов (и не только всякую грязь, но и нормальные сайты). А на прошлой неделе опомнился и начал все индексировать заново - мои сайты (часть из которых попала под бан) подверглись агрессивной индексации.

Пока самый действенный способ поддерживать сервер в адекватном состоянии - это блокировка в конфигах сервера ахубота (по юзер агенту). Уже сделали кеш для всех сайтов, оптимизировали все, что только могли, поставили кеш для пхп и прочие заморочки - сервак уже почти держит натиск яхубота (раньше умирал через 5 минут после активации яхубота в конфигах, а сейчас по полчаса держится). Продолжаем оптимизировать скрипты и придумывать дополнительные хитрости.

Яхубот - всегда гость желанный, он нам очень нужен, но бывают моменты, когда мы просто не можем его себе позволить. Запрашивает яхубот в сутки 3-5 лямов страниц - хз, зачем ему столько, но видимо очень хочется. Другие боты на порядок скромнее.

Забавных моментов еще много. Например, то, что до этого сервак держался не один год (и при текущем количестве сайтов все было в порядке) - индексировалось все, работало довольно шустро. Кстати, все это происходит при вполне адекватном отношении к сайтам со стороны прочих поисковиков - они индексят без "авралов".

Вот такие пироги. Желаю всем попасть в индекс Яху и не лопнуть от переизбытка чуйств :)

А теперь о решениях

По шагам...

Шаг 1

В блоге мне умные люди подсказали одну, казалось бы очевидную, весчь:

Димок, смотри ссылку. Делаешь общий robots.txt алиасом апача - и в нем ставишь боту дилей, допустим, 10 сек. Отпускает буквально на глазах.

Я сделал. И правда отпустило! Нагрузка снизилась в разы. Однако, завтра планирую все убрать ограничение с яхи - пусть индексит так много, как может, ибо читайте следующие шаги.

Шаг 2

Все старые сайты, которые брали какую-либо инфу из файлов, перевели на БД, и все, что между сайтами было схожего (скрипты в смысле) поместили в одно место. Избавились от дикой избыточности данных и скриптов, которые эти данные обрабатывают. Стало работать быстрее.

Шаг 3

Поставили некий модуль, который делает кеш компиленных php скриптов. Значительно ускоряет их работу!

Шаг 4

Сделали кеш для наиболее часто используемых страниц. Причем сначала в базе, а затем в файлах (ибо база от большого количества страниц кеша начала тупить).

Шаг 5

Стали хранить кеш страниц в архивированном виде и отдавать юзеру в нем же. Это еще и трафик позволило уменьшить.

 

Если у кого есть какие советы, то в каменты плиз!!!


  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    Your IP address will be recorded 

  • 0 comments
Create an Account
Forgot your login or password?
Facebook Twitter More login options
English • Español • Deutsch • Русский…