Поиск и безопасность
Как уже писал ранее, я учусь в магистратуре. И в рамках обучения необходимо было подготовить лекцию по теме безопасности. Но так как в безопасности я не силен, то решил подготовить материал на тему безопасного или даже очень опасного для некоторых проектов поиска.
Что это такое читайте дальше. Сразу скажу, что при подготовке материала я воспользовался материалами в сети и своими наработками. У меня уже давно витали идеи объединения безопасности и поиска в один материал, как-то даже с конторой по обеспечению безопасности интернет-проектов была попытка прощупать популярных блоггеров, но как-то не сложилось.
Свой материал я разделил на 4 логических части, первая из которых посвящена поиску уязвимостей проектов в интернете через специализированный софт, во второй части затронута тема достаточно простого получения доступа к сайтам благодаря использованию поиска, далее о файлах инструкций сайтов для поисковых систем, которые тоже в большом числе случаев позволяют получить доступ к закрытым разделам сайтов. В конце немного о заразе в результатах поиска и в контекстных объявлениях.
В этом посте вы точно не узнаете, как именно можно “ломануть” сайт, но получите информацию для размышления, как ее использовать решать вам. Материал предложен в сокращенном виде.
Google как сканнер уязвимостей сайтов
В конце прошлого месяца группа хакеров Cult of the Dead Cow (CDC) представила инструмент, который превратил Google в сканнер на уязвимость сайтов, определяющий слабые пароли и сервера. Goolag Scanner является программным обеспечением с открытым кодом, имеет простой графический интерфейс, и распространяется бесплатно.
Обнаруженные уязвимости отображаются в виде ссылок, которые можно активировать в окне браузера. Таким образом, могут быть похищены пароли и прочая конфиденциальная информация. Разработчики обнаружили крупные уязвимости на сайтах Северной Америки, Европы и Ближнего Востока. //SeoNews
Данным софтом можно воспользоваться для поиска уязвимостей своих проектов или в каких-либо недоброжелательных целях. Лично я себе поставил этот софт, который проверяет проекты на более чем 2000 “дырок”. Вообще, занятное это дело - мониторить сайты конкурентов)))
Бесплатные и старые CMS уже дырка в безопасности сайта
На сегодняшний день большинство проектов используют системы управления контентом, которые сами не писали, а которые разработаны давным-давно, которые до сих пор поддерживаются или уже давно заброшены. Если брать самые популярные cms, то “дырки” в них латаются по расписанию и чуть ли не каждый месяц.
При этом разработчики порой сами выкладывают информацию о том, какие уязвимости были закрыты. Вот тут-то у злоумышленников появляется реальная возможность навредить популярным сайтам благодаря поиску.
Практически все cms в коде или метатегах имеют метки версии используемого продукта. Благодаря поиску через тот же Google можно получить большой список ссылок на сайты с устаревшими “движками”. Имея список уязвимостей таких старых версий, уже точно не составит никакого труда получить информацию о взломе.
Поэтому при использовании распространенных систем управления контентом необходимо немного уделить внимание правке исходного кода - исключить возможность отображения версии продукта, удалить системные метки, по которым можно идентифицировать cms, установленную на сайте. Ну, и не забывайте о постоянных обновлениях - это в первую очередь относится к standalone блоггерам.
Rodots.txt, как повод к взлому
Веб-роботы, также называемые “пауками” – это программы, автоматически исследующие всемирную сеть через рекурсивное получение страниц по гиперссылкам. Робот посещает сайты посредством запросов документов с этих сайтов и создает базу данных, которая используется поисковой машиной для нахождения документов, соответствующих строке поиска. Если сайт открыт для общего доступа, пользователи должны иметь возможность поиска сайта с помощью поисковой системы. Тем не менее, следует запретить роботам доступ к страницам сайта, особенно к тем, которые содержат важную информацию, так как это может привлечь внимание хакеров. Большая часть веб-роботов содержит два механизма ограничения областей сайтов, которые они будут посещать: протокол исключений роботов Robots Exclusion Protocol и META-теги роботов, хотя некоторые роботы игнорируют обе директивы.
Я не буду вам больше ничего говорить о robots.txt, т.к. и информации в сети достаточно, и моя аудитория с большего подкована в этом вопросе.
Недостатки файла robots.txt
Многие хакеры могут проникнуть на сайт, изучив файл robots.txt, и просмотреть данные ограниченного доступа. При эффективном контроле безопасности содержащейся на сайте информации какие-либо хакеры, конечно, не представляют серьезной опасности.
Например, если хотите запретить доступ к странице с адресом www.site.ru/stat/index.php, необходимо прописать в файле robots.txt следующую команду:
User-agent: *
Disallow: /stat/
Однако хакерам не трудно догадаться, как зайти на эту страницу – нужно просто ввести в адресной строке браузера URL www.domain.com/stats. От вебмастера в этом случае потребуется принятие следующих мер:
Смена имени файла. Нужно сменить имя файла index.php на другое, например, statindex.php. Тогда полный адрес страницы будет выглядеть следующим образом www.site.ru/stat/statindex.php
По старому адресу страницы index.php можно разместить простой текстовый файл, например, содержащий следующую информацию: “У вас нет прав для доступа к этой странице”. В этом случае хакерам будет трудно угадать имя файла и проникнуть на страницу ограниченного доступа.
Установка пароля. Дополнительно можно защитить паролем информацию, прописанную в robots.txt файле.
Поиск не всегда несет качественную и полезную информацию
Использование поисковых служб в интернете оказалось небезопасным занятием. Ежегодно почти 300 млн пользователей попадают на вредоносные сайты с помощью поисковых систем.
С помощью поисковиков сайты, подготовленные злоумышленниками, могут нанести вред пользователям путем установки шпионских программ, рассылки спама и прочими методами, так как поисковые машины не отфильтровывают ссылки на данные сайты из результатов поиска. Хотя Google уже начал предупреждать о небезопасном содержимом некоторых сайтов из результатом поиска.
Все протестированные в прошлом году поисковые машины возвращают среди своих результатов ссылки, ведущие на опасные сайты. Риск особенно увеличивается при поиске по популярным ключевым словам. Наибольшую опасность представляют платные спонсорские ссылки (контекстная реклама).
Вот такие моменты смог я определить для лекции на тему поиска и безопасности за час. У вас есть, чем еще дополнить материал?
Спонсор месяца - Программа для массовой рассылки писем
Еще по теме можно почитать:Почему “Яндекс” клеится к моему сайту? Настраиваем robots.txt Twitter-трансляция с Я.Субботника в Минске Оптимизация сайта под “белорусские” поисковые системы Мобильный поиск Яндекса учитывает местоположение при запросе Mail.ru так и не начал использовать поиск Google
2 Апрель 2008 в 17:49
По поводу недостатков robots.txt.
“…Однако хакерам не трудно догадаться, как зайти на эту страницу – нужно просто ввести в адресной строке браузера URL www.domain.com/stats….” - это лечится с привлечением файла .htaccess, большинство хостингов предоставляет такую возможность.
2 Апрель 2008 в 19:44
Спасибо за полезную статью. А как установить пароль на robots.txt не подскажете?
2 Апрель 2008 в 20:06
а вообще сотрите. зачем он нужен. только вирусы и приводит. а так вирусы не будут знать, что им делать.
2 Апрель 2008 в 21:45
Полезно, несколько раз мои сайты ломали… Это довольно стремно, а дыры как всегда оказываются очень даже простыми…
PS. “RoDots.txt, как повод к взлому”
2 Апрель 2008 в 23:14
Обновления для Друпала выходят регулярно. И постоянно там латают дыры в безопасности…
3 Апрель 2008 в 7:23
как robots.txt запаролить, интересно.
3 Апрель 2008 в 9:19
Честно говоря, я предполагал, что абзац с установкой пароля воспримут не верно. В robots.txt вы закрываетет директорию от индексирования, а непосредственно сам файл или доступ внутрь раздела защищаете паролем, чтобы, как сказал cross, не было повода…
3 Апрель 2008 в 10:25
content=”WordPress 2.2.3″
Я тоже всем друзьям советую не превышать скорость и пристегиваться, а сам летаю, что сумасшедший…
мы белорусы…
3 Апрель 2008 в 12:50
Паше пятерку за практическое занятие! Скоро буду все по-тиху чинить
3 Апрель 2008 в 17:16
да, уже давно заметил, как у товарища взламывали php-nuke
все приходили банально с поиска google
а человек упорно не хотел убирать копирайты, заменили копирайт на аналогичную картинку-gif и больше никто не приходил
как одноклассники - открытая база МВД, так и Google - открытая база сайтов
3 Апрель 2008 в 18:50
Не знал что robots.txt можно запоролить.
4 Апрель 2008 в 17:41
2Joker - так его и нельзя запоролить
4 Апрель 2008 в 19:01
webmaster. его можно запаролить. почему нет. я любой файл могу запаролить. не вводите людей в заблуждение.
4 Апрель 2008 в 19:40
так а толку его паролить, если он поисковым ботам виден не будет?
5 Апрель 2008 в 13:02
паролить его нужно, чтобы не давать повода ломать
6 Апрель 2008 в 4:23
Надо паролить. Нечего поисковикам на сайтах делать. Вон яндекс сайт и положить может. Хорошему, контентному проекту поисковики не нужны абсолютно. Пользователь сам может отсеять какашки от алмазов.
27 Июнь 2008 в 22:36
Реально ли, с помощью .htaccess разрешить доступ к robots.txt ботам нескольких определённых ПС, а всем остальным запретить доступ к этому файлу?
8 Июль 2008 в 19:39
Чё замерзли что ли?