RigWEB

Зачем нужен файл robots.txt

Здравствуйте! Было в моей жизни такое время, когда не знал абсолютно ничего про сайтостроение и уж тем более не догадывался про существование файла robots.txt. По мере изучения данной сферы, наконец-то подошел и к этому вопросу. Зачем он нужен и почему на форумах много тем, связанных с этим файлом? А если возникают вопросы, значит на них обязательно найдутся ответы.

Файл robots.txt

Robots.txt — это текстовый файл, суть которого заключается в ограничении доступа роботов поисковых систем к разделам и страницам нашего интернет-ресурса, которые нужно скрыть от индексации и как следствие от посторонних глаз.

Зачем скрывать определенное содержимое сайта?

Ответ прост. Вряд ли Вы обрадуетесь, если поисковый робот проиндексирует файлы администрирования сайта, в которых могут храниться пароли или другая секретная информация. Robots направляет поисковых ботов, указывая что можно, а что нельзя индексировать, но также может содержать в себе и информативную составляющую.

Например, можно указать путь к карте сайта, что поможет роботам быстрее найти все странички, или указать главное зеркало сайта (прописать директиву host), чтобы склеить два домена с www и без www (только для Яндекса).

Располагаться он должен в корне сайта и никак иначе. Если у сайта есть поддомены, то для каждого поддомена составляется свой robots.txt.

Всегда нужно помнить о безопасности. Этот файл может посмотреть любой желающий, поэтому не нужно указывать в нем явный путь к административным ресурсам (панелям управления и т.д.). Как говориться меньше знаешь, крепче спишь. Поэтому если на страницу нет никаких ссылок и Вы не хотите ее индексировать, то не нужно ее прописывать в роботсе, ее и так никто не найдет, даже роботы-пауки.

Наличие файла очень желательно! Первое что делает поисковый робот, придя на сайт — это проверяет как раз этот файл, если он его не обнаружит, то может уйти ни с чем…

Сразу же хочу сказать, что поисковые системы по разному относятся к этому файлу. Например, Яндекс безоговорочно следует его правилам и исключает запрещенные страницы из индексирования, в то время как Google воспринимает этот файл как рекомендацию и не более.

Таким образом Гугл может успешно добавить в выдачу страницы, запрещенные к индексирования, несмотря на все ограничения. Его основной аргумент — если на страницу ссылаются, значит она может появится в поисковой выдаче. Самое верное решение — не ссылаться на такие страницы, но позвольте, файл robots.txt как раз и предназначен для того, чтобы выкинуть из выдачи такие страницы, а если они там появились, значит на них есть ссылки…

В этом видео Matt Cutts (Матт Каттс) рассказывает как происходит индексация поисковой системой Google и какие меры необходимо предпринять, чтобы исключить содержимое сайта из поиска. Применяя все методы изложенные в ролике вероятность запрета индексации значительно повышается.

Т.е. кроме robots.txt рекомендуется использовать .htaccess, мета-тег noindex (не путать с тегом <noindex> Яндекса, для запрета индексации части текста!), атрибут rel="nofollow" для ссылок, не ставить ссылки на ненужные страницы. Если запрещенные страницы все же были проиндексированы, то необходимо воспользоваться панелью инструментов для вебмастеров и входящим в его состав инструментом удаления страниц:

Удаление страниц из поиска через Google Webmaster Tools если robots.txt игнорируется

Проверка robots.txt

Продолжая тему с Google, можно воспользоваться еще одним инструментов из Google Webmaster Tools (GWT) и проверить файл robots.txt, правильно ли он составлен для запрета определенных страниц:

Проверка файла robots.txt в гугле

Для проверки достаточно ввести в текстовое поле URL-адреса, которые необходимо проверить и нажать кнопку Проверить — в результате проверки выяснится, запрещена данная страница к индексации или же ее содержимое доступно для поисковых роботов.

У Яндекса есть аналогичный инструмент, находящийся в панели Яндекс Вебмастер, проверка осуществляется аналогичным образом:

Проверка файла robots.txt в яндексе

Если Вы пока не знаете как правильно составить файл robots.txt :!:, то просто создайте пустой файл с таким именем: robots.txt, а когда будет время, изучите правила его написания. Для каждой из CMS (систем управления сайтом) есть свои особенности. О правильном составлении файла robots.txt для движка WordPress мы и поговорим в следующий раз, а пока до встречи!

Рубрика: Сайтостроение
  1. Арина

    Денис, что значит создать файл robots.txt (прочитала оба поста, вид файла я поняла). Где его создать или куда загрузить? Это как страница что ли? Мне прям стыдно, что я такая непонятливая.

    Ответить

  2. Webliberty

    Арина, файл у Вас уже есть, располагается на сервере в корневой папке, сейчас он у Вас такой:

    1
    
    bzikki.ru/robots.txt

    Ответить

  3. Арина

    А как мне найти его в панели администратора?

    Ответить

  4. Webliberty

    Арина, через консоль WordPress его никак не найти, нужно через панель управления хостингом.

    Ответить

  5. Арина

    Вот и всё… Значит мне его не исправить. У меня хостинг предоставлен в виде готового блога… Я уже знаю, что совершила ошибку :sad: , получается ровно год буду жить так.

    У меня забанил Яндекс страничку в Я.ру. Я решила сделать свой блог. Все эти технические штучки меня пугали. Когда искала хостинг вдруг увидела предложение готового блога от Агава. Я обрадовалась, оплатила, а потом поняла, что поступила глупо. Вообще теперь не знаю, стоит ли его развивать.

    Ответить

  6. Webliberty

    Конечно развивайте! Не стоит зацикливаться на robots.txt, да и в посте я указал что наличие этого файла желательно, а не обязательно ;-). К тому же можно запросить выдачу резервной копии и в будущем развернуть ее на другом хостинге. А сейчас у Вас есть время и отличная возможность изучить техническую сторону ведения блога!

    PS: существует плагин KB Robots.txt, который способен создавать этот файл без доступа по FTP.

    Ответить

  7. Арина

    Денис, у меня получилось сделать robots.txt. Правда не знаю всё ли верно, взяла за основу твою формулу. Спасибо, спасибо! Я очень рада!

    Ответить

  8. Арина

    Привет, Денис! Это снова я — непутевая :twisted: Слежу за индексацией, но даже с прописанным robots.txt, почему-то у меня дублируются категории или метки и получаются лишние проиндексированные страницы. Не подскажешь, с чем это может быть связано?

    Ответить

  9. Webliberty

    Арина, так у Вас теги не закрыты от индексации… не хватает строчки:

    1
    
    Disallow: /tag/

    Ответить

  10. Aleks

    Google воспринимает этот файл как рекомендацию и не более — Я веду блоги на Гугловском Блоггере и там с этим robots.txt настоящий дурдом, а именно по непонятным причинам закрывают от индексации сообщения про ярлыки вообще молчу.
    :arrow:

    Ответить

  11. Webliberty

    Aleks, блогспот (блоггер) ведь принадлежит гуглу, вот он и делает с ним все что захочет… Переходите на вордпресс, не пожалеете, да и зависеть ни от кого не будете… Мне всегда не нравилось, когда загоняют в определенные рамки, в этот и суть бесплатных блог-платформ.

    Ответить

  12. eugenu

    Полезная статья, недавно сделал свой блог, но об robots.txt как то и не задумывался.. Сегодня попробую сделать.

    Ответить

  13. idealnaja

    Спасибо за пост. Проверила свой блог. Пришлось в файлик роботса кое-что добавить :twisted:

    Ответить

  14. irina-se

    Спасибо, теперь понятно где посмотреть, есть ли у меня роботс и какой он из себя! И еще подскажите, как вы смайлики для комментариев поставили? Это плагин какой-то или что другое? :?:

    Ответить

  15. Webliberty

    Посмотрите инструкцию по установке смайликов.

    Ответить

  16. Татьяна

    У меня есть роботс, но в нём у меня стоит запрет на индексацию категорий, а я бы хотела что бы категории у меня индексировались. Если я сотру эту строчку, у меня не буде проблем с индексацией сайта? Подскажите пожалуйста.

    Ответить

  17. Webliberty

    Татьяна, чтобы избежать проблем с частичным дублированием контента на странице категорий необходимо обеспечите выполнение нескольких условий:

    1. Разместить для каждой категории уникальное описание с использованием ключевых слов. Затем такие страницы можно продвигать по среднечастотным запросам.
    2. Ограничить краткое описание записей, достаточно 300-400 символов. Чем больше ограничение, тем выше уникальность в пределах одного домена.

    Важно понимать, что страницы категорий, также как и страницы навигации не всегда могут высоко ранжироваться в поисковых системах, поэтому я в своих проектах их закрываю.

    Ответить

  18. Татьяна

    Спасибо. Значить это что категория никогда не сможет занять топ в поисковике, а страница всё равно будет в приоритете у поисковиков?

    Ответить

  19. Webliberty

    Татьяна, если страница будет индексироваться, то займет она первые позиции или нет зависит только от методов и активности ее продвижения. Проще говоря — все в Ваших руках)

    Ответить

  20. Денис

    Здравствуйте! Скажите, пожалуйста, почему роботс.тхт может не находится роботами. Проверял в панели яндекс.вебмастер он «говорит» — нету этого файла. Имя документа верное, формат тхт. Я не нашел причин.

    Ответить

  21. Webliberty

    Денис, здравствуйте! Потому что его действительно нет, при переходе по нужному адресу возникает ошибка 404. Проверьте правильность размещения файла — он должен быть в корне сайта.

    Ответить

  22. Андрей

    Здравствуйте Денис!
    Поправьте меня пожалуйста, если я не так понял. После перечисления страниц для запрета индекса в конец файла надо прописать закрывающий тег как в этом примере?

    1
    2
    3
    4
    5
    
    User-agent: *
    Disallow: /1.html/
    Disallow: /2.html/
    Disallow: /3.html/
    Disallow: /tag/

    Ответить

  23. Webliberty

    Андрей, добрый вечер! Если страницы имеют на конце URL расширение .html то в конце правила слэш не нужен. Сделайте так:

    1
    
    Disallow: /1.html

    Ответить

Ваш комментарий:

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: