Почему “Яндекс” клеится к моему сайту? Настраиваем robots.txt
Помните пост про поиск и безопасность сайтов в интернете? Я там еще про robots.txt рассказывал. Так вот, сегодняшний пост является логическим продолжением того, но с чисто практическим подходом. В сегодняшнем выпуске жизненная история о том, как при определенных обстоятельствах robots.txt может испортить жизнь веб-мастеру и вообще прикрыть сайт для посетителей из поиска.
Есть такой блог blog.grodno.net - прямой конкурент моего s13.ru. Я ежедневно мониторю выдачу по своему семантическому ядру на предмет подвижек, появления новых игроков и обычно мой и тот блог идут ноздря в ноздрю (последний отстает на несколько позиций). При очередном обходе я заметил, что blog.grodno.net совсем пропал из выдачи (уже как 2 АПа), но вместо него вылез foto.grodno.net, подцепивший на себя по мнению Яндекса все страницы сайтов с поддоменов *.grodno.net.
Хочу заметить, что всплывший сайт до сих пор вообще никак не был представлен в выдаче, т.к. Яндекс считал (и считает) все поддомены *.grodno.net одним сайтом, поэтому в результатах поиска может быть только один проект из десятка.
Реально на ситуацию повлияло всего 2 показателя - наличие в ЯК (в меньшей степени, вообще это единственный сайт в каталоге со всего домена) и правильный robots.txt
Т.к. сегодня пост сугубо практический, то предлагаю перейти к сравнительному анализу.
Взгляните на это:
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-admin
Disallow: /wp-includes
Host: www.blog.grodno.net
И на это:
User-agent: Yandex
Disallow:
Host: foto.grodno.net
User-agent: *
Disallow:
Почуствовали разницу? Предлагаю закрепить. Некоторые роботы могут неправильно отреагировать на использование дополнительных директив. Это значит, что не стоит использовать дополнительные директивы в секции “*”. То есть рекомендуется создавать специальные секции для нестандартных директив, таких как “Host”.
И не смотря на всю популярность Яндекса и лидирующие позиции в Рунете, его роботы относятся к категории “некоторые”.
Так неправильно:
User-agent: *
Disallow: /css/
Host: www.example.com
А вот так – правильно:
User-agent: *
Disallow: /css/User-agent: Yandex
Disallow: /css/
Host: www.example.com
Такая ситуация может грозить:
- проектам на бесплатном хостинге с доменами третьего уровня
- комерческим проектам с разными сайтами отделов, направлений на одном домене
Спонсор месяца - Программа для массовой рассылки писем
P.S. Так, никому в мои роботс тиэксти не лезть - исправлять буду после выходных )))
* * *
На чем лучше зарабатывать? SAPE vs. РСЯ. Переводной пост об искусстве ведения блога - мне понравилось. Пройдусь по друзьям во вне сеошной тематике со схожими со мной интересами - немножко из истории создания Речи Посполитой (внимание, часть материала на белорусском).
Все, долгих выходных и легкого старта в понедельник! Удачи!
Еще по теме можно почитать:“Снежинск” окопался в регионах Указ №60 в действии: заблокирован доступ к витебскому новостному сайту Продвижение сайта на TUT.BY - универсальный рецепт успеха Честный Яндекс. 300 WMR тому, кто угадает тИЦ Яндекс жрет мой моск!
19 Апрель 2008 в 14:16
а host писать обязательно надо писать?
19 Апрель 2008 в 19:32
Сначала скажу, что foto.grodno.net - мой проект. А теперь комментарий твоего текста.
Мне кажется что в описанной ситуации robots.txt тут ни при чем. Если он и играет какую-то роль, то только косвенную… Как все мы знаем, Яндекс по умолчанию не индексирует *.net и не делал этого никогда с сайтами домена grodno.net, кроме blog.grodno.net был удостоен его внимания, о чем собственно позаботился создатель блога. С появлением моего проекта мне пришлось позаботиться об исправлении этой ошибки и Яндекс начал индексировать весь домен. НО. В силу каких-то моральных убеждений поисковый робот Яндекса начал воспринимать все страницы сайтов как некий единый тематический блок. Т.е. и фото гродно и блог гродно и форум гродно = grodno.net На запросы в поиске выдавалась самая релевантная страница всех сайтов и поскольку ссылок было больше на блог гродно, то они и были теми самыми релевантными. Так было всегда. По запросу “Гродно” всегда показывался блог, а по другим, например, “фото гродно” или “форум гродно” показывались другие страницы других сайтов.
Изменение ситуации - было всего лишь делом времени. На фотоблог появилось больше ссылок, и по некоторым запросом он стал более релевантный. А по некоторым нет.
20 Апрель 2008 в 14:46
2 ьфтвфкшт
Нет, не обязательно. Дело в том, что директива “host” - вынужденная мера со стороны Яндекс, - у них явно существуют проблемы с роботом-зеркальщиком и определением основного URL и его алиасов.
Классическая ситуация - редирект без www на www (Достаточно историю с dmoz.org двухмесячной давности вспомнить) Если по-хорошему, то достаточно в .htaccess пару строк добавить:
RewriteCond %{HTTP_HOST} ^example\.com$ [NC]
RewriteRule ^(.*)$ http://www.example.com/$1 [L,R=301]
В случае же с Яндекс - лучше действительно подстраховаться директивой “host”.
20 Апрель 2008 в 18:25
Может мне в вашу тематику залезть и показать как правильно сайты делать? ;)
А если по теме: имхо, яндекс требует к себе отдельного отношения во всём, но я почему то не уверен, что с изменением робота исправляется ситуация. Внесение в яндекс-каталог всех домен и поддомен скорее даст больше отдачи. ;)
20 Апрель 2008 в 22:17
Не верно.
1) Яндекс считает все поддомены grodno.net одним сайтом.
http://www.yandex.ru/yandsearch?text=grodno.net&clid=21975&surl=grodno.net&surl_manually=true
Это обычное явление. Соответственно, при поиске выдается один, наиболее релевантный документ из коллекции.
2) robots.txt НИКАК не влияет на манеру яндекса считать поддомены тем же сайтом, что и основной домен. Это всего лишь(!) рекомендация (даже не команда) для зеркальщика - какое зеркало вбрать главным.
Ну зачем так сразу - “по умолчанию не индексирует”. Индексирует, просто немного иначе. С год назад приблизительно так яндексоиды и сказали.
21 Апрель 2008 в 1:25
@The end. и как сейчас объяснить яндексу что сайты все разные?
21 Апрель 2008 в 10:03
The end, ну сейчас вроде Яндекс индексирует все, но в некоторых случаях у него это получается дико криво.
21 Апрель 2008 в 18:54
1) Убедить Яндекс, что grodno.net стоит причислить к списку доменов-исключений, в который включаются географические домены (***.msk.ru, ***.spb.ru и прочие), специальные типы доменов (***.com.ru, ***.pp.ru и другие) и домены бесплатных хостингов (**.H11.ru, ***by.ru и т.п.)
Вспоминая свою переписку с Яндексом по поводу поддоменов shop.by, могу сказать, что для grodno.net этот вариант малореальный
2) внести разделы в Я-каталог. Бесплатно - не факт, что возьмут, платно - дорого.
Не уверен, что в данном случае это вообще нужно. Я бы постарался решить вопрос более тонкой заточкой самих страниц под конкретные запросы. На худой конец - немного ссылок.
Рекомендую прочитать - про поддмены (правда с точки зрения ТИЦ, но все же): http://www.the-end.name/archives/8 . Писал давно, но все актуально.
Ну и про попадение в ЯНдекс-каталог: http://www.the-end.name/archives/114
21 Апрель 2008 в 20:18
Всегда стоит указывать директиву host - лишним это не будет, зато в некоторых случаях спасет от непонятной склейки
23 Апрель 2008 в 17:34
Народ может кто знает как обмануть яндекс
25 Апрель 2008 в 14:35
Банкир, в каком сысле? продвижение?
25 Апрель 2008 в 14:36
обманите Воложа и теоритически вы обманите яндекс
5 Май 2008 в 1:52
c13, статья ни о чём.
7 Май 2008 в 9:05
базаваза, а тебе бы лишь бы ссылку оставить с невменяемым комментом. Хотя должен отдать тебе должное - впервые ссылка без “продам/куплю авто”
8 Май 2008 в 9:48
Про специальные типы доменов (***.com.ru, ***.pp.ru и другие) - а интересно, в чем они специальные? Перед выбором такого домена для своего сайта (http://buddho.org.ru) я анализировал их плюсы и минусы -
1. бесплатные (если знать, где и как)
2. есть свой whois
3. sape и xap их принимают
Интересно, есть ли у них какой-то существенный недостаток при взаимодействии с поисковиками?