Почему “Яндекс” клеится к моему сайту? Настраиваем robots.txt

Помните пост про поиск и безопасность сайтов в интернете? Я там еще про robots.txt рассказывал. Так вот, сегодняшний пост является логическим продолжением того, но с чисто практическим подходом. В сегодняшнем выпуске жизненная история о том, как при определенных обстоятельствах robots.txt может испортить жизнь веб-мастеру и вообще прикрыть сайт для посетителей из поиска.

Есть такой блог blog.grodno.net - прямой конкурент моего s13.ru. Я ежедневно мониторю выдачу по своему семантическому ядру на предмет подвижек, появления новых игроков и обычно мой и тот блог идут ноздря в ноздрю (последний отстает на несколько позиций). При очередном обходе я заметил, что blog.grodno.net совсем пропал из выдачи (уже как 2 АПа), но вместо него вылез foto.grodno.net, подцепивший на себя по мнению Яндекса все страницы сайтов с поддоменов *.grodno.net.

Хочу заметить, что всплывший сайт до сих пор вообще никак не был представлен в выдаче, т.к. Яндекс считал (и считает) все поддомены *.grodno.net одним сайтом, поэтому в результатах поиска может быть только один проект из десятка.

Реально на ситуацию повлияло всего 2 показателя - наличие в ЯК (в меньшей степени, вообще это единственный сайт в каталоге со всего домена) и правильный robots.txt

Т.к. сегодня пост сугубо практический, то предлагаю перейти к сравнительному анализу.

Взгляните на это:

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-admin
Disallow: /wp-includes
Host: www.blog.grodno.net

И на это:

User-agent: Yandex
Disallow:
Host: foto.grodno.net

User-agent: *
Disallow:

Почуствовали разницу? Предлагаю закрепить. Некоторые роботы могут неправильно отреагировать на использование дополнительных директив. Это значит, что не стоит использовать дополнительные директивы в секции “*”. То есть рекомендуется создавать специальные секции для нестандартных директив, таких как “Host”.

И не смотря на всю популярность Яндекса и лидирующие позиции в Рунете, его роботы относятся к категории “некоторые”.

Так неправильно:

User-agent: *
Disallow: /css/
Host: www.example.com

А вот так – правильно:

User-agent: *
Disallow: /css/

User-agent: Yandex
Disallow: /css/
Host: www.example.com

Такая ситуация может грозить:

  • проектам на бесплатном хостинге с доменами третьего уровня
  • комерческим проектам с разными сайтами отделов, направлений на одном домене

Спонсор месяца - Программа для массовой рассылки писем

P.S. Так, никому в мои роботс тиэксти не лезть - исправлять буду после выходных )))

* * *

На чем лучше зарабатывать? SAPE vs. РСЯ. Переводной пост об искусстве ведения блога - мне понравилось. Пройдусь по друзьям во вне сеошной тематике со схожими со мной интересами - немножко из истории создания Речи Посполитой (внимание, часть материала на белорусском).

Все, долгих выходных и легкого старта в понедельник! Удачи!



Еще по теме можно почитать:

  • “Снежинск” окопался в регионах
  • Указ №60 в действии: заблокирован доступ к витебскому новостному сайту
  • Продвижение сайта на TUT.BY - универсальный рецепт успеха
  • Честный Яндекс. 300 WMR тому, кто угадает тИЦ
  • Яндекс жрет мой моск!


  • Комментариев: 15

    1. ьфтвфкшт пишет:

      а host писать обязательно надо писать?

    2. dze пишет:

      Сначала скажу, что foto.grodno.net - мой проект. А теперь комментарий твоего текста.

      Мне кажется что в описанной ситуации robots.txt тут ни при чем. Если он и играет какую-то роль, то только косвенную… Как все мы знаем, Яндекс по умолчанию не индексирует *.net и не делал этого никогда с сайтами домена grodno.net, кроме blog.grodno.net был удостоен его внимания, о чем собственно позаботился создатель блога. С появлением моего проекта мне пришлось позаботиться об исправлении этой ошибки и Яндекс начал индексировать весь домен. НО. В силу каких-то моральных убеждений поисковый робот Яндекса начал воспринимать все страницы сайтов как некий единый тематический блок. Т.е. и фото гродно и блог гродно и форум гродно = grodno.net На запросы в поиске выдавалась самая релевантная страница всех сайтов и поскольку ссылок было больше на блог гродно, то они и были теми самыми релевантными. Так было всегда. По запросу “Гродно” всегда показывался блог, а по другим, например, “фото гродно” или “форум гродно” показывались другие страницы других сайтов.

      Изменение ситуации - было всего лишь делом времени. На фотоблог появилось больше ссылок, и по некоторым запросом он стал более релевантный. А по некоторым нет.

    3. buster пишет:

      2 ьфтвфкшт

      Нет, не обязательно. Дело в том, что директива “host” - вынужденная мера со стороны Яндекс, - у них явно существуют проблемы с роботом-зеркальщиком и определением основного URL и его алиасов.

      Классическая ситуация - редирект без www на www (Достаточно историю с dmoz.org двухмесячной давности вспомнить) Если по-хорошему, то достаточно в .htaccess пару строк добавить:

      RewriteCond %{HTTP_HOST} ^example\.com$ [NC]
      RewriteRule ^(.*)$ http://www.example.com/$1 [L,R=301]

      В случае же с Яндекс - лучше действительно подстраховаться директивой “host”.

    4. Андрей пишет:

      Может мне в вашу тематику залезть и показать как правильно сайты делать? ;)
      А если по теме: имхо, яндекс требует к себе отдельного отношения во всём, но я почему то не уверен, что с изменением робота исправляется ситуация. Внесение в яндекс-каталог всех домен и поддомен скорее даст больше отдачи. ;)

    5. The end пишет:

      Реально на ситуацию повлияло всего 2 показателя - наличие в ЯК (в меньшей степени, вообще это единственный сайт в каталоге со всего домена) и правильный robots.txt

      Не верно.
      1) Яндекс считает все поддомены grodno.net одним сайтом.
      http://www.yandex.ru/yandsearch?text=grodno.net&clid=21975&surl=grodno.net&surl_manually=true
      Это обычное явление. Соответственно, при поиске выдается один, наиболее релевантный документ из коллекции.

      2) robots.txt НИКАК не влияет на манеру яндекса считать поддомены тем же сайтом, что и основной домен. Это всего лишь(!) рекомендация (даже не команда) для зеркальщика - какое зеркало вбрать главным.

      Как все мы знаем, Яндекс по умолчанию не индексирует *.net

      Ну зачем так сразу - “по умолчанию не индексирует”. Индексирует, просто немного иначе. С год назад приблизительно так яндексоиды и сказали.

    6. Андрей пишет:

      @The end. и как сейчас объяснить яндексу что сайты все разные?

    7. s13 пишет:

      The end, ну сейчас вроде Яндекс индексирует все, но в некоторых случаях у него это получается дико криво.

    8. The end пишет:

      @The end. и как сейчас объяснить яндексу что сайты все разные?

      1) Убедить Яндекс, что grodno.net стоит причислить к списку доменов-исключений, в который включаются географические домены (***.msk.ru, ***.spb.ru и прочие), специальные типы доменов (***.com.ru, ***.pp.ru и другие) и домены бесплатных хостингов (**.H11.ru, ***by.ru и т.п.)
      Вспоминая свою переписку с Яндексом по поводу поддоменов shop.by, могу сказать, что для grodno.net этот вариант малореальный

      2) внести разделы в Я-каталог. Бесплатно - не факт, что возьмут, платно - дорого.

      Не уверен, что в данном случае это вообще нужно. Я бы постарался решить вопрос более тонкой заточкой самих страниц под конкретные запросы. На худой конец - немного ссылок.

      Рекомендую прочитать - про поддмены (правда с точки зрения ТИЦ, но все же): http://www.the-end.name/archives/8 . Писал давно, но все актуально.
      Ну и про попадение в ЯНдекс-каталог: http://www.the-end.name/archives/114

    9. webmaster пишет:

      Всегда стоит указывать директиву host - лишним это не будет, зато в некоторых случаях спасет от непонятной склейки

    10. Банкир пишет:

      Народ может кто знает как обмануть яндекс

    11. SanchezBoy пишет:

      Банкир, в каком сысле? продвижение?

    12. Dmitriy K. пишет:

      обманите Воложа и теоритически вы обманите яндекс

    13. базаваза пишет:

      c13, статья ни о чём.

    14. s13 пишет:

      базаваза, а тебе бы лишь бы ссылку оставить с невменяемым комментом. Хотя должен отдать тебе должное - впервые ссылка без “продам/куплю авто”

    15. Cosmo пишет:

      Про специальные типы доменов (***.com.ru, ***.pp.ru и другие) - а интересно, в чем они специальные? Перед выбором такого домена для своего сайта (http://buddho.org.ru) я анализировал их плюсы и минусы -

      1. бесплатные (если знать, где и как)
      2. есть свой whois
      3. sape и xap их принимают

      Интересно, есть ли у них какой-то существенный недостаток при взаимодействии с поисковиками?

    Оставьте свой отзыв!

    Новости Беларуси

    05.09.2011

    “Деловой Интернет” стал платным - 5 долларов за участие

    3-4 октября 2011 года в Минске состоится шестая ежегодная конференция “Деловой Интернет-2011“. И впервые конференцию решено сделать платной и без привычного для многих генспонсора - государственного телекоммуникационного монополиста “Белтелекома”. Ожидается значительное просеивание рядов слушателей от школьников и просто прохожих, которых было бы очень много в центре Минска (конференция впервые переехала в самое удачное место для […]

    23.06.2011

    Apple собирается забрать домен у белорусского блоггера

    Как стало недавно известно, представители корпорации Aplle в Беларуси собираются через суд забрать недавно приобретенный домен у известного seo-блоггера Андрея Гусарова.
    Как рассказал сам Андрей, ему предложили купить доменное имя mac.by, которое было на холде (т.е. еще не проплачено). Учитывая то, что домен находился в скрытом ЯК, было решено покупать. Сразу же были потрачены деньги на […]

    30.05.2011

    Домены в зоне .by подорожали, но стали доступнее

    Технический администратор домена .by, сообщил о повышении цен на домены в зоне .by на 25%. С 1 июня регистрация домена будет стоить 99 000 рублей. При этом в долларовом исчеслении после девальвации национальной валюты домены даже подешевеле - еще недавно это было 27 долларов, а сегодня лишь около 20 долларов.
    В 2006 году стоимость домена в зоне .by составляла […]

    12.05.2011

    “Яндекс” почувствовал валютный кризис в Беларуси

    “Яндекс” серьезно ощутил последствия валютного кризиса в Беларуси. Об этом сегодня на пресс-конференции в Минске сообщил официальный представитель “Яндекс” в Беларуси Сергей Петренко.
    “Наши партнеры с конца марта не могут купить российские рубли для платежей. Проблема, к сожалению, очень такая немаленькая, - отметил Сергей Петренко. - “Мы думаем, что с этим можно сделать. На данный момент […]

    Реклама

    Новости IT-сферы

    20.01.2012

    В Рунете тестируют убийцу конструкторов-сайтов

    В начале 2000-ых в Рунет пришли конструкторы сайтов, платные и условно-бесплатные, успешные и не очень. По сути с десяток лет все было очень даже спокойно, конкуренция друг с другом на компаниях особо и не сказывалась, а новые плюшки появлялись исключительно за деньги. И вот на сцене появился setup.ru.
    Вы спросите, чем же он так хорош и […]

    19.10.2011

    Нелимитируемые переводы через Яндекс.Деньги возможны через сервис онлайн-идентификации

    Пользователи систем электронных денег теперь смогут проводить платежи на любые суммы, а не на максимально разрешенные антиотмывочным законодательством 15 тыс. руб., как это было до сих пор. Это станет возможным благодаря сервису онлайн-идентификации, запускаемому системой “Яндекс.Деньги” и бюро кредитных историй (БКИ) “Эквифакс кредит сервисиз”. По пути онлайн-идентификации клиентов готовы пойти и другие системы электронных денег […]

    05.10.2011

    За две недели “Яндекс” подешевел на 40%

    Инвесторы посчитали “Яндекс” переоцененным. Из-за небольшой потери поискового рынка России за акцию “Яндекса” дают $18,8, тогда как еще в июле одна акция оценивалась в $38,5.
    В России “Яндекс” впервые за последние годы начал терять долю рынка. В третьем квартале она снизилась всего на 0,5%, но этого хватило, чтобы по итогам минувшей среды акции “Яндекса” подешевели на […]

    08.09.2011

    Инструменты оптимизатора: новый бесплатный сервис проверки Google карт сайта

    В сети появился новый seo-сервис для оптимизаторов - Google Sitemaps Status Checker. Как пояснил Павел Мальто из SEO Research Inc., сервис выполняет только одну, но очень полезную функцию: каждый час проверяет статусы карт сайтов и отправляет на почту уведомление, если Google обнаружит ошибку.

    SEO-сервис будет полезен владельцем сайтов, у которых автоматически геренируются карты сайтов, другими словами, […]

    Ссылки

    mp3 indir indir izle divx film indir film izle