Составляем правильный Robots.txt для WordPress

Всем привет! Сегодня статья о том, каким должен быть правильный файл robots.txt для WordPress. С функциями и предназначением robots.txt мы разбирались несколько дней назад, а сейчас разберём конкретный пример для ВордПресс.

Файл robots.txt для вордпресс

С помощью этого файла у нас есть возможность задать основные правила индексации для различных поисковых систем, а также назначить права доступа для отдельных поисковых ботов. На примере я разберу как составить правильный robots.txt для WordPress. За основу возьму две основные поисковые системы — Яндекс и Google.

В узких кругах вебмастеров можно столкнуться с мнением, что для Яндекса необходимо составлять отдельную секцию, обращаясь к нему по User-agent: Yandex. Давайте вместе разберёмся, на чём основаны эти убеждения.

Яндекс поддерживает директивы Clean-param и Host, о которых Google ничего не знает и не использует при обходе.

Разумно использовать их только для Yandex, но есть нюанс — это межсекционные директивы, которые допустимо размещать в любом месте файла, а Гугл просто не станет их учитывать. В таком случае, если правила индексации совпадают для обеих поисковых систем, то вполне достаточно использовать User-agent: * для всех поисковых роботов.

При обращении к роботам по User-agent важно помнить, что чтение и обработка файла происходит сверху вниз, поэтому используя User-agent: Yandex или User-agent: Googlebot необходимо размещать эти секции в начале файла.

Пример Robots.txt для WordPress

Сразу хочу предупредить: не существует идеального файла, который подойдет абсолютно всем сайтам, работающим на ВордПресс! Не идите на поводу, слепо копируя содержимое файла без проведения анализа под ваш конкретный случай! Многое зависит от выбранных настроек постоянных ссылок, структуры сайта и даже установленных плагинов. Я рассматриваю пример, когда используется ЧПУ и постоянные ссылки вида /%postname%/.

Файл robots

WordPress, как и любая система управления контентом, имеет свои административные ресурсы, каталоги администрирования и прочее, что не должно попасть в индекс поисковых систем. Для защиты таких страниц от доступа необходимо запретить их индексацию в данном файле следующими строками:

Disallow: /cgi-bin
Disallow: /wp-

Директива во второй строке закроет доступ по всем каталогам, начинающимся на /wp-, в их число входят:

  • wp-admin
  • wp-content
  • wp-includes

Но мы знаем, что изображения по умолчанию загружаются в папку uploads, которая находится внутри каталога wp-content. Разрешим их индексацию строкой:

Allow: */uploads

Служебные файлы закрыли, переходим к исключению дублей с основным содержимым, которые снижают уникальность контента в пределах одного домена и увеличивают вероятность наложения на сайт фильтра со стороны ПС. К дублям относятся страницы категорий, авторов, тегов, RSS-фидов, а также постраничная навигация, трекбеки и отдельные страницы с комментариями. Обязательно запрещаем их индексацию:

Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: /tag/
Disallow: */feed/
Disallow: */trackback
Disallow: */comments

Далее хотелось бы уделить особое внимание такому аспекту как постоянные ссылки. Если вы используете ЧПУ, то страницы содержащие в URL знаки вопроса зачастую являются «лишними» и опять же дублируют основной контент. Такие страницы с параметрами следует запрещать аналогичным образом:

Disallow: */?

Это правило распространяется на простые постоянные ссылки ?p=1, страницы с поисковыми запросами ?s= и другими параметрами. Ещё одной проблемой могут стать страницы архивов, содержащие в URL год, месяц. На самом деле их очень просто закрыть, используя маску 20*, тем самым запрещая индексирование архивов по годам:

Disallow: /20*

Для ускорения и полноты индексации добавим путь к расположению карты сайта. Робот обработает файл и при следующем посещении сайта будет его использовать для приоритетного обхода страниц.

Sitemap: https://webliberty.ru/sitemap.xml

В файле robots.txt можно разместить дополнительную информацию для роботов, повышающую качество индексации. Среди них директива Host — указывает на главное зеркало для Яндекса:

Host: webliberty.ru

При работе сайта по HTTPS необходимо указать протокол:

Host: https://webliberty.ru
С 20 марта 2018 года Яндекс официально прекратил поддержку директивы Host. Её можно удалить из robots.txt, а если оставить, то робот её просто игнорирует.

Подводя итог, я объединил всё выше сказанное воедино и получил содержимое файла robots.txt для WordPress, который использую уже несколько лет и при этом в индексе нет дублей:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-
Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: /tag/
Disallow: */feed/
Disallow: /20*
Disallow: */trackback
Disallow: */comments
Disallow: */?
Allow: */uploads
 
Sitemap: https://webliberty.ru/sitemap.xml
Постоянно следите за ходом индексации и вовремя корректируйте файл в случае появления дублей.

От того правильно или нет составлен файл зависит очень многое, поэтому обратите особо пристальное внимание к его составлению, чтобы поисковики быстро и качественно индексировали сайт. Если у вас возникли вопросы — задавайте, с удовольствием отвечу!

  1. 5
  2. 4
  3. 3
  4. 2
  5. 1
(6 голосов, в среднем: 4.8 из 5)
  1. adiodas

    Спасибо, то что нужно. Сделал robots по вашему рецепту 🙂

    Ответить

  2. Webliberty

    Рад стараться 😳 Хочу заметить что со временем он может меняться, например в случае установки плагинов или др. Например, я установил себе плагин вывода страниц WP-PageNavi и запретил в robots.txt страницы, которые он создает, т.е. добавил строку:

    Disallow: /page/

    Приведенные мной пример подходит в большинстве случаев, потому что является базовым.

    Ответить

  3. Дмитрий Донченко

    Отлично все расписано, и в принципе полезно особенно для тех кто не хочет ковыряться и изучать различные параметры поисковиков, также рекомендую почитать здесь. Некоторые пункты в этой инструкции не прописаны 🙁

    Ответить

  4. Валерий

    Отличный пост! Доходчиво для чайников вроде меня. А то советов много, а как ПРАВИЛЬНО, толком лично мне было не ясно.

    Ответить

  5. Webliberty

    Дмитрий Донченко, да, учтены не все параметры, на то и базовый пример 😉 Думаю многие читатели последуют Вашему совету и дополнительно прочитают материал расположенный по предложенной ссылке (рекомендуемая версия разработчиков WordPress, хотя в ней тоже не все учтено).

    Валерий, спасибо за одобрение)

    Ответить

  6. Виталий

    Я в своем мало внимания уделил Яндексу, буду исправлять… и есть еще мнение что сначала надо сделать персональные указания отдельным роботам, а потом уже для всех остальных, а вы как считаете?

    Ответить

  7. Webliberty

    Виталий, ну а смысл с первых строк обращаться, допустим, к Яндексу, если зайдет быть может совсем другой робот, например Гугла? Он начнет читать строки: так… это не мне, это тоже не мне, это опять не мне… все, я пошел. В итоге так до конца и не прочтет файл, бывает такое. А если сначала обратиться ко всем, то даже Яндекс поймет, что это к нему обращаются, а если в конце еще и конкретно ему написать пару строк — то точно не обидится)

    Ответить

  8. Маргарита

    А если я скопирую Ваш, Денис, файл, только поменяю название блога, это будет лучше, чем ничего?
    Если я правильно поняла, то файл создается отдельно как документ txt и куда его потом загружать? На хостинг? Или в вордпресс?

    Ответить

  9. Webliberty

    Маргарита, нужно к каждому блогу подходить индивидуально. Конечно нужно поменять адрес блога и у Вас он будет без префикса www. Далее у Вас нет карты сайта в формате XML, поэтому последнюю строку не нужно писать или же лучше сделать карту сайта (рекомендуется) и оставить. Ну и напоследок сделать для себя вывод: собираетесь открывать к индексации метки, категории, страницы или нет (в примере они запрещены).

    Файл robots.txt иметь очень желательно, но не обязательно. Размещаться он должен на сервере (хостинге) в корневой папке.

    Ответить

  10. Маргарита

    Спасибо за ответ! А почему у меня без www? И какая разница: сайт с www или без?
    И как понять нужно ли мне открывать к индексации метки, страницы и категории? И подскажите, заодно, какой плагин для карты сайта лучше?

    Ответить

  11. Webliberty

    Потому что у Вас блог уже проиндексирован без www — подробнее здесь можно почитать. Для карты сайта я использую плагин Google XML Sitemaps. Ну а метки и категории — решать Вам, я закрыл у себя.

    Обратите внимание: посмотрите какие страницы проиндексированы в Google — для этого в этом поисковике в строку адреса введите:

    site:margaritablog.ru

    и что увидите? В большинстве своем проиндексированы страницы с метками, типа margaritablog.ru/tag/…

    Идеальный вариант — когда в индексе поисковых систем находятся только страницы с постами, статичные страницы и конечно главная — все это легко посчитать в цифрах и сравнить с данными в поисковиках. Остальное следует закрывать в robots.txt, дабы исключить дублирования. А что такое дублирование? Это почти тоже самое что плагиат, только в пределах одного сайта.

    Ответить

  12. Алексей

    Спасибо. Сейчас переделаю по Вашей публикации. Никак не могу подняться в топе выше 12-40 строчки. Честно говоря не очень спец, но может быть это одна из причин.

    Ответить

  13. Webliberty

    Алексей, учтите, что у Вас может немного отличаться содержание файла, возьмите пример за основу и подгоните под себя.

    Конечно, если файл robots.txt не правильно написан, то в индекс могут попасть дубли страниц и продвижение будет происходить не основных страниц с контентом, а вспомогательных, которые в выдаче могут находиться выше основных.

    Ответить

  14. Алексей

    Спасибо, Денис. Сильного отличия нет. Ссылки у меня можно сказать человекопонятные, дата там конечно есть, но уже менять не буду. Карта сайта есть только для робота, но самом блоге страничка не делается, выдает ошибку наверное где-то косяк в самой теме, но разобраться пока не смог.

    Вы правы, посмотрел и увидел в индексе много дублей, думаю от этой проблемы избавиться благодаря Вашей статье. Плагин RDS Bar для гугл хрома пока выводит в статистику по блогу старый robots.txt, но наверное чтобы вывел новый нужно время. Если не сложно подскажите может есть еще сервисы где это можно увидеть.

    С уважением Алексей.

    Ответить

  15. Webliberty

    Алексей, для проверки необязательно пользоваться сторонними сервисами, все необходимые инструменты есть в панелях для вебмастеров как Яндекса, так и Google, дополнительную информацию про robots.txt можно почитать здесь.

    Ответить

  16. Лев

    У меня прописано Disallow: /category/*/*. Адреса постов на сайте site/category/post. Google наряду с такими ссылками
    выдаёт и site/post, по которым открывается ошибка. Подскажите, как можно это исправить.
    С уважением, Лев

    Ответить

  17. Webliberty

    Лев, здесь видимо проблема не с роботсом… Что Вы имеете в виду, под словами «Google наряду с такими ссылками выдает»? Страницы с такими адресами (site/post) находятся в индексе ПС? Если да и при переходе на такие страницы выдается ошибка 404, то удалите эти страницы, воспользовавшись специальным инструментом из панели вебмастеров Google, в будущем они полностью уйдут из поиска.

    Ответить

  18. Дмитий

    Здравстуйте Денис! Огромное спасибо за статью, но я вот не могу понять, у меня на блоге пока 10 статей, и 4 страницы, а индексация в google перевалила за 37, никак не могу понять почему так?

    Ответить

  19. Webliberty

    Дмитий, тогда нужно анализировать, что лишнее появилось в выдаче, вот таким запросом в Гугле:

    site:wp-chance.ru

    на последней странице результатов поиска есть надпись:

    Чтобы показать наиболее значимые результаты, мы опустили некоторые, очень похожие на 16 уже показанных.
    Если вы хотите, можно повторить поиск, включив опущенные результаты.

    Следует пройти по ссылке и будут показаны эти лишние страницы, у Вас в основном это категории. Да, они проиндексированы несмотря на запрет в роботсе. Такое часто бывает, зайдите в панель для веб-мастеров Google и создайте вручную запрос на удаление, вставьте /category/ и в выпадающем меню выберите Удалить каталог. Удаление произойдет в течение дня.

    Ответить

  20. Александр

    Здравствуйте, я хотел бы у Вас поинтересоваться. Никак не могу понять, что означает значок звездочки.

    Вот пример: мне надо запретить по вот такому пути сайт/category/proizvoditeli/статья
    Мне надо запретить к индексации все пути кроме самой статьи, следовательно я должен написать вот так: /category/proizvoditeli/* или как-то по другому?

    * — это разрешающий знак или нет? Никак не могу понять.

    Ответить

  21. Webliberty

    Александр, это знак задающий маску и обозначает что в адресе вместо него могут быть другие символы, например следующий уровень вложенности. Трудно сказать по Вашему вопросу не зная адрес сайта, если возможно то отпишитесь мне на e-mail (найдете на странице с контактами). Возможно у Вас задана такая структура постоянных ссылок, что статья всегда имеет в своем адресе /category/proizvoditeli/ или другие пути.

    Ответить

  22. Александр

    Я нашел как это делается, просто надо ставить знак $ — это разрешающий знак. Почти всё на сайте закрыл. Вот слово «почти» меня смущает, надо закрыть всё кроме самих статей. Если несложно, помогите закрыть от индексации все дубли.

    Вот например, как закрыть ссылку с символом # в комментариях. Это походу единственные дубли, которые я не могу закрыть.

    Ответить

  23. Денис

    Отличная статья. Читается на одном дыхании и понятно сразу всё! Спасибо. Подскажите пожалуйста какие права нужно выставлять на robots.txt?

    Ответить

  24. Webliberty

    Александр, # — это хэш-тег и он не приводит к дублированию контента, все что после этого тега не учитывается и не индексируется поисковыми системами, закрывать их не нужно. Очень часто этот символ используется в ссылке Читать далее — #more и указывает на местоположение на странице, не более.

    Денис, права для чтения.

    Ответить

  25. Елена

    Здравствуйте, Денис!

    У меня два вопроса: Гугл не индексирует одну страницу моего блога. Пишет: Обнаружены серьезные ошибки, связанные с состоянием сайта. Некоторые важные страницы блокируются в файле robots.txt.

    И по ссылке показывает страницу, которая не закрыта для индексации. Я написала им письмо с вопросом о моих дальнейших действиях. Но в Гугле вопрос задается на англоязычном форуме, а не у тех.поддержки, как в Яндексе, поэтому, боюсь, ответа я не дождусь. Денис, или кто-нибудь из ваших гостей, может быть сталкивался с такой ситуацией и знает как ее исправить. Как сделать, чтобы robots.txt прекратил блокировку индексации нужной страницы?

    А второй вопрос такой, я хочу у себя на блоге сделать фотогаллерею и боюсь, что эта страница тоже будет заблокирована, как та, о которой я писала выше ( в ней нет текста, только изображения). Возможно, для страниц с отсутствием текста, а только с изображениями есть какие-то специальные правила их составления. Если, кто знает объясните, пожалуйста.

    Ответить

  26. Webliberty

    Елена, здравствуйте! У Гугла нет поддержки как у Яндекса, у них есть справочный форум, где можно задать вопрос, если повезет, то кроме обычных пользователей могут ответить и сами сотрудники Google. Форум есть и русскоязычный, посмотрите внимательнее.

    А Вы проверяли, действительно ли страница о которой он пишет не проиндексирована в Google? Проверьте ее на наличие в поиске.

    Никаких ограничений по наполнению страницы не существует, можете хоть просто 1 изображение вставить, это не будет ошибкой. Другое дело как к этому отнесутся поисковики, они любят тексты и поэтому я рекомендую на такие страницы добавить, к примеру, описание картинки, пояснения, чтобы было чего индексировать.

    Не забывайте, что поисковые роботы видят страницу не как человек, а всего лишь исходный код страницы, а если нет текста, значит видят лишь одни HTML-теги.

    Ответить

  27. Александр

    Денис, у тебя классный блог, многое почерпнул на нем, спасибо. И еще большое спасибо, что помог мне в решение моих проблем!!! Я твой постоянный читатель… жду новых интересных статей!!

    Ответить

  28. Webliberty

    Александр, очень приятно, спасибо 😳 Новые посты обязательно будут, стараюсь раз в неделю писать.

    Ответить

  29. Дмитрий

    Вот помню, что Денис мне помогал с Роботсом на блоге, тут сайт переносил с другой CMS и забыл про «20*», как правильно писать. А тут пришел, посмотрел и вспомнил 🙂 Хорошо, когда знаешь куда идти за нужной информацией, минуя поисковые системы

    Ответить

  30. danunahren

    Строчка: Disallow: /category/ запрещает индексацию категорий?

    Ответить

  31. Webliberty

    danunahren, верно, поэтому если в структуре URL конечной страницы имеется название категории, то применять эту строчку нельзя.

    Простой пример. Сейчас у меня на блоге адрес страницы выглядит так:

    https://webliberty.ru/sostavlyaem-robots-txt-dlya-wordpress/

    категорий в адресе нет, поэтому я с легкостью запрещаю их индексирование.

    Ответить

  32. danunahren

    Webliberty, у меня точно такая же структура ЧПУ как у вас /%postname%/ То есть в урлах страниц нет категорий. А каким образом это влияет на открытие или закрытие категорий к индексации? Что бы поменялось, если в урлах были категории?

    Какую структуру вы посоветуете, полагаясь на личный опыт?

    Ответить

  33. Webliberty

    danunahren, если такая как у меня, то можно закрыть категории от индексации, но это не обязательно. Если их оставить, то происходит частичное дублирование (анонсы) в пределах домена, что не совсем хорошо на мой взгляд.

    Бытует мнение, что страницы категорий способны приносить трафик, но для этого их нужно уникализировать — например сделать на таких страницах описание рубрик и далее продвигать их по среднечастотным запросам. Спорить с этим мнением не стану — вполне рабочий вариант.

    Есть различные варианты составления постоянных ссылок, например если в URL страницы есть /category/, то при запрете индексации категорий произойдет полное выпадение страниц из индекса.

    Я бы посоветовал свой вариант /%postname%/ или /%postname%.html — псевдостатика с расширением на конце URL. Лишние параметры в адресе ни к чему — страница становится не второго, а более низкого уровня, да и плотность ключевого слова в URL снижается.

    Ответить

  34. danunahren

    Отличный и понятный ответ, спасибо. Я как раз рассчитываю на продвижение категорий и в каждой из них у меня перед анонсами постов выводится специально созданное описание категории. Так что строчку

    Disallow: /category/

    я уберу из роботса. А в остальном беру ваш вариант на вооружение.

    Ещё один вопрос. Тут недавно прочитал где-то, что для молодого сайта стоит запретить в роботсе доступ для бота вебархива через директиву:

    User-agent: ia_archiver
    Disallow: /

    с целью предотвращения возможного дальнейшего выкачивания содержания сайта с вебархива нечистоплотными вебмастерами. Что вы об этом думаете?

    И ещё хотелось бы знать ваше мнение на счёт этих дополнительных предписаний:

    User-agent: Googlebot-Image
    Allow: /wp-content/uploads/
    User-agent: YandexImages
    Allow: /wp-content/uploads/

    Ответить

  35. Webliberty

    danunahren, с вебархивом я бы не стал заморачиваться, но не повредит точно.

    По поводу остального скажу так: эти строки указывают на разрешение индексирования загруженных графических файлов в папку /uploads/, чаще же robots.txt используется для запрета. А все что не запрещено — разрешено по умолчанию) Так что особого смысла от этих строк я не вижу…

    Ответить

  36. danunahren

    Webliberty, ну в общем то наверное вы правы, спасибо за помощь.

    Ответить

  37. Константин Харченко

    Стоит эти строки добавить к списочку?

    Disallow: /wp-login.php
    Disallow: /wp-register.php

    Ответить

  38. Webliberty

    Константин, по-моему это уже лишнее, но можно добавить строку:

    Disallow: /*.php

    которая исключает индексацию всех файлов с расширением .php

    Ответить

  39. Анатолий

    Подскажите, в каких случаях целесообразно закрывать папку uploads? И не повлияет ли это на трафик, который приходит с поиска по картинкам?

    Ответить

  40. Татьяна

    Здравствуйте! Огромное спасибо за статью! Я вроде все поняла. Только хочу посоветоваться как лучше.
    У меня в robots.txt стоит

    Disallow:/catagory/*/*

    В настройках

    /%category%/%postname%.html

    Как будет работать эта команда disallow в моем случае? Она будет запрещать к индексации мои посты-статьи? Спасибо. Жду ответа.

    Ответить

  41. Webliberty

    Анатолий, нет никакого смысла, в ней же хранятся все загружаемые изображения, если закроете эту папку от индексации, то картинки не попадут в поиск, соответственно трафика на них не будет.

    Татьяна, нет, в таком случае она не запрещает индексацию. Для самопроверки и анализа robots.txt рекомендую пользоваться соответствующим инструментом в панели Яндекс Вебмастер.

    Ответить

  42. Екатерина

    Здравствуйте, отличная статья! У меня файл robots.txt похож на ваш, но некоторые пункты отсутствуют. Кстати, спасибо и за ссылку на статью о ссылках ЧПУ — тоже пригодилась. Единственное, что хотелось бы уточнить: при таких параметрах файла нужно закрывать в настройках вордпресс категории от индексации? У меня почему-то после этого многие страницы выпали из индекса….(впрочем, причину я точно знать не могу — может, она в чем-то другом кроется). Жу ответ!

    Ответить

  43. Webliberty

    Екатерина, здравствуйте! Таких параметров не существует — на вкус и цвет) Единственное, что хотелось бы отметить, если оставляете категории открытыми: напишите к этим страница уникальное описание.

    Сайт скорее всего под фильтром, одна только главная страница в выдаче. В роботс директиву Host пропишите без http — может и в этом проблема.

    Ответить

  44. Юлия

    Здравствуйте, помогите разобраться c файлом, пожалуйста.

    Сделала файл на 26 строк для Яндекса и на 26 для всех остальных. Яндекс при проверке путем загрузки самого файла ошибок не находит и показывает все 26 строк, урлы при этом тоже корректно разрешаются и запрещаются к индексации. При загрузке с сайта видит только 3 строки и только 2 запрета:

    User-agent: *
    Disallow: /wp-admin/
    Disallow: /wp-includes/

    Та же картина, если файл переделать под запрет индексации вообще или убрать вовсе. Яндекс непреклонен.
    В настройках приватности WP — Разрешить поисковым системам индексировать содержимое этого сайта (галка стоит).

    Я читала о похожей проблеме, что ВП сам генерит робота. Можете подсказать, почему так происходит? Как сделать, чтобы яндекс видел мой файл? Заранее спасибо вам за помощь 🙂

    Ответить

  45. Webliberty

    Юлия, здравствуйте, а плагин случайно не установлен, отвечающий за роботс? Есть такие плагины, позволяющие редактировать robotx.txt даже в том случае если нет прямого доступа к файлам, например по FTP. И для наглядности конечно хотелось бы взглянуть на Ваш блог, если не хотите его здесь указывать, то можете написать мне на почту.

    Ответить

  46. Влад

    Такая же беда как у Юли. Похоже ВП сам генерирует файл роботс, хотя на хостинге его нет. Плагинов, позволящих редактировать роботс нету.

    Ответить

  47. Константин

    А где искать этот robots? В папках на хостинге найти не могу, но если набирать имя блога/robots.txt открывается страница всего с 2 записями:

    User-agent: *
    Disallow: /wp-admin/
    Disallow: /wp-includes/

    Где же он лежит?

    Ответить

  48. Webliberty

    Влад, даже затрудняюсь ответить, больше вариантов не приходит на ум.

    Константин, он лежит в корне сайта. Если говорить о сервере, то у разных хостинг-компаний, предоставляющих услуги, структура папок может быть разной. Также и от панели управления сервером зависит.

    Ответить

  49. Влад

    Константин, Такая же беда у меня была. Роботс есть, но на хостинге его нет. Я просто сделал файлик роботс и залил его на хостинг, после чего уже отображается мой файл роботс с моими данными.

    Похоже что вордпресс сам генерит этот роботс, а если залить свой роботс, то новый файл залитый на хостинг затрет старый, которого невозможно было найти раньше.

    Ответить

  50. Руслан

    Объясните мне не будет ли вообще проходить мимо новостей робот если закрыть PAGE как у вас? Просто у меня много уникальных статей на сайте есть. Что конкретно закрывается когда закрываешь PAGE?

    Ответить

  51. Webliberty

    Руслан, нет, новости по-прежнему будут открыты, строкой

    Disallow: /page/

    закрываются страницы вида:

    webliberty.ru/page/3/

    А что на подобных страницах, как правило, находится? Правильно, анонсы основных новостей, всего лишь анонсы, небольшая выдержка, дублирующая небольшую часть основного текста. Поэтому все в порядке)

    Ответить

  52. Руслан

    Webliberty, спасибо что объяснили 🙂

    Ответить

  53. Sergej

    А может быть так, что после установки robot.txt блог начинает тормозить, медленно всё открывается. Во всяком случае до установки этого файла всё было в порядке? Может просто надо что-то исправить?

    Ответить

  54. Webliberty

    Sergej, это исключено! Этот файл учитывается только поисковыми системами и он никак не влияет на рендеринг страницы в браузере.

    Ответить

  55. Эдуард

    Приветствую Уважаемый блогер, мне очень понравилась Ваша статья, настроил свой файл РОБОТ, до этого было много дублей, сейчас вообще в яндексе только главная проиндексирована, вчера все настроил, буду теперь ждать новостей от Яндекса, и у меня такой вопрос, что означает у Вас в роботе такая строчка:

    Disallow: /20*

    И если не затруднит гляньте на мой файл робота, и подскажите поможет ли мне то что я сделал проиндексировать все страницы в яндексе 😉 И еще, чуть не забыл, как закрыть одностраничники от индексации?

    Ответить

  56. Webliberty

    Здравствуйте, Эдуард. Как ни странно, но когда дубли не закрыты именно они зачастую ранжируются выше чем основные страницы и иногда не участвуют в поиске. Именно поэтому все настройки сайта нужно выполнять до открытия сайта поисковым роботам, чтобы не было проблем.

    Эта строчка закрывает архив блога, т.е. все записи начинающиеся на 20 — в данном случае год, например 2012, 2013 и так далее.

    Файл посмотрел, ошибок не увидел. Про одностраничники имеется в виду вопрос по другому сайту?

    Ответить

  57. Эдуард

    Денис они на этом же сайте, site/bonus/bonus.html — вот так выглядит ссылка на одностраничник, я хотел узнать как ее закрыть для поисковиков, что бы в дальнейшем помещать именно в эту директорию информацию для подписной базы, и что бы вся директория не индексировалась.

    Ответить

  58. Ольга Черныш

    Влад, ну наконец-то . А то я уже разозлилась. Все, попробую. Уже почти все папки выучила, пока искала.

    Ответить

  59. Олег

    Спасибо, Денис! Сделал по рецепту, все работает. Очень жаль, что в интернете мало таких сайтов, где все конкретно и ясно. Благодарю 🙂

    Ответить

  60. Webliberty

    Эдуард, можно закрыть так:

    Disallow: /bonus/

    Ответить

  61. pimpik

    Наверно вопрос не по теме, но в Интернете я не нашёл на него ответа. Решил спросить у вас, потому что знаю, что Вы спец в этом деле. Заглянув в инструменты для веб-мастера (гугле) я обнаружил следующие проблемы:

    Повторяющееся метаописание и Повторяющиеся заголовки (теги title). Например страница ?p=1559&cpage=1 и ?p=1559. Не пойму что-такое «cpage»? Может его как-то надо запретить в robots.txt?

    Ответить

  62. Максим

    Здравствуйте, спасибо за статью. Подскажите, пожалуйста, как запретить в robots.txt страницу блога, созданную в админке WordPress через пункт «Страницы»?

    Ответить

  63. Webliberty

    pimpik, скорее всего у Вас в настройках админ панели в Параметры/Обсуждение стоит галочка напротив «Разбивать комментарии верхнего уровня на страницы», а параметр “cpage” как раз и определяет номер страницы с комментариями. Если это действительно так, то лучше снять эту галочку. Если нет, то обозначить данный параметр как незначительный для Гугла, сделать по аналогии с параметром replytocom, метод описан здесь.

    Максим, по аналогии, например страница имеет адрес webliberty.ru/primer/ тогда закрыть ее можно так:

    Disallow: /primer/

    Или есть второй способ — добавить на страницу мета-тег Robots, запрещающий ее индексирование:

    <meta name="Robots" content="Noindex, nofollow">

    Ответить

  64. Алексей

    Подскажите, почему так! Прописал в роботе запрет тегов /tag/ и страниц /page/ два дня назад. Вчера робот зашел, но все равно теги и страницы в индексе. Может стоит подождать какое-то время?

    Ответить

  65. Webliberty

    Алексей, конечно стоит подождать, кроме того, ПС относятся к директивам файла как рекомендациям, а не беспрекословным требованиям.

    Ответить

  66. Алексей

    Webliberty, спасибо. Со дня моего вопроса уже все поменялось, страницы и теги исчезли из поиска.

    Ответить

  67. Alexander Samokhin

    Спасибо, дополнил свой файл некоторыми строками.

    Ответить

  68. Евгений

    Можно узнать, почему вы исключили в robots.txt на своём сайте вот это:

    Disallow: /*?
    Disallow: /*?*

    Ответить

  69. Webliberty

    Евгений, все очень просто. Эти строки закрывают от индексации все мусорные страницы со знаком вопроса в урле. Применять это правило следует с осторожностью — только в том случае, если структура постоянных ссылок ЧПУ.

    На своем блоге я стал применять это правило с тех пор, как встретился с проблемой параметра replytocom в ссылках и просто огромным числом страниц с этим параметром, находящихся в индексе Google.

    Ответить

  70. Евгений

    Извиняюсь, я наверное не совсем правильно задал вопрос и вы меня не поняли.)) Я имел в виду в вашем файле robots.txt на вашем сайте нет этих параметров, почему?

    Ответить

  71. Webliberty

    Евгений, теперь понял. Действительно, в данный момент у меня нет этих строк. И это продолжение истории которую рассказал выше) Только для борьбы с параметрами я стал применять другое, более радикальное решение — Clean URL.

    Ответить

  72. Евгений

    Спасибо большое за оперативные ответы! Пользуясь моментом, хочу задать ещё один вопрос.

    Если на сайте присутствуют неопубликованные статьи, могут ли они проиндексироваться ПС? Если да, то как защититься от этого? Может быть, поместить эти статьи в отдельную рубрику, скажем «черновик» и запретить? И вообще, возможно ли закрыть отдельную рубрику от индексации?

    Ответить

  73. Webliberty

    Евгений, если статья находится в статусе Черновик или Личное, то она не будет проиндексирована, т.к. у ПС к ней нет доступа и на страницу не ведут внешние ссылки. Поисковые системы попросту не знают о ее существовании.

    Одну из рубрик можно закрыть если структура выглядит следующим образом:

    site/category/rubrika/

    В таком случае применяется правило:

    Disallow: /rubrika/

    Ответить

  74. Евгений

    Огромное спасибо вам! Удачи Вам в развитии ваших проектов!

    Ответить

  75. Александр

    Доброго времени суток! Спасибо автору за простое изложение информации! На этот сайт зашёл случайно и нашёл для себя много полезной информации.

    У меня вопрос по данной теме статьи неделю назад сделал точно такой же robots.txt для WordPres, который предложен в данной статье и которую использует автор блога. Но Google продолжает игнорировать запрет, который там прописан и всё равно индексирует всё подряд. Например, если в Яндексе индексированных страниц всего 46 то в Google аж 1200 страниц… Вопрос: как это исправить?

    Ответить

  76. Aqua

    У вас самое понятное объяснение по поводу файла. Спасибо, ещё раз зайду почитать 🙂

    Ответить

  77. Webliberty

    Александр, дело в том, что Гугл и не скрывает информации о рекомендательном характере этого файла. Эта ПС всегда держит в своем индексе значительно больше URL чем остальные, поэтому к вопросу нужно подходить комплексно.

    Советую почитать еще вот эти статьи:
    1) Clean URL
    2) Replytocom

    Ответить

  78. Olga

    Здравствуйте! А если строки из файла robots.txt прописаны в файле functions (версия 3.5) то как лучше сделать — удалить все строки оттуда и создать новый отдельный файлик robots или просто скопировать и вставить Ваши строки? Заранее спасибо!

    Ответить

  79. Sergey

    У меня этот файл сделан аналогично, но сейчас столкнулся с тем, что для Гугла мой robots.txt недоступен, и он откладывает индексацию. Пришлось сделать для него отдельно, как и Яндексу. Надеюсь, так можно?

    Ответить

  80. Webliberty

    Olga, лучше конечно в отдельный файл всё вынести. Functions.php может еще много раз придется редактировать, а роботс достаточно 1 раз настроить и забыть. Просто скопировать и вставить — не вариант, структура сайта может отличаться и тогда сами того не подозревая закроете сайт от поисковых систем. Нужно подходить к этому вопросу с осторожностью и применять правила к конкретному сайту, с учетом его особенностей.

    Sergey, что значит недоступен? Допустимо для каждой ПС указывать отдельные правила, указывая User-agent.

    Ответить

  81. Елена

    Добрый день! Хотела уточнить один момент, обратила внимание на то, что у вас последняя строчка:

    Sitemap: https://webliberty.ru/sitemap.xml

    А вот у других видела еще есть строка c sitemap.xml.gz. Я новичок, поэтому извиняюсь заранее, если что объясняю как-то не понятно.

    Ответить

  82. Webliberty

    Елена, здравствуйте! sitemap.xml.gz — это сжатая копия карты сайта. Ее делать не обязательно, соответственно и указывать в роботсе — тоже. Если рассматривать общие требования к файлу с картой сайта, то он не должен превышать 10Мб. Если он больше — то его сжимают.

    Ответить

  83. Елена

    Webliberty, спасибо, теперь понятно 🙂

    Ответить

  84. Александр

    Здравствуйте! Очень внимательно прочитал вашу статью. Но остались вопросы по файлу robots, на которые я не могу найти правильный ответ на форумах. Люди дают взаимоисключающие советы. Все дело в том, что на моем сайте пришлось внести изменения в файл robots, т.к. индексировались дубли страниц. Сейчас в Яндексе перестали индексироваться новые статьи, хотя в Google индексация идет нормально. В чем проблема?

    Ответить

  85. Webliberty

    Смотрите, Александр, все очень просто. Если есть сомнения — воспользуйтесь следующими рекомендациями. В Яндекс Вебмастер есть инструмент Анализ robots.txt. Открываете его, в поле Имя хоста указываете адрес своего сайта и нажимаете кнопку Загрузить.

    В текстовом поле ниже загрузится текущее содержимое файла. Далее обратите внимание на Список URL — нажмите добавить. И в этом поле укажите те адреса страниц, по которым сомневаетесь — правильно ли написаны правила для индексации. После чего нажмите Проверить.

    Результат проверки будет показан ниже. Если индексация разрешена — то все в порядке, а если запрещена — будет указано какое правило файла закрывает эту страницу от индексации. Для наглядности небольшой пример:

    Проверить robots.txt

    Недавно появился еще один удобный инструмент — Проверить URL (ссылку на него найдете в ЯВ, когда перейдете к добавленному сайту). В результате проверки при клике по ссылке Готово увидите подробную сводку по этой странице.

    Стоит отметить, что подобный инструмент есть и в Гугле, он называется Заблокированные URL на вкладке Сканирование в инструментах для веб-мастеров.

    Ответить

  86. Александр

    Добрый вечер! Спасибо за подробную информацию. Проблема заключается в том, что robots разрешает индексацию статей, а они в индекс Яндекса не попадают с 10 апреля. Не могу понять, в чем здесь проблема!

    Ответить

  87. Webliberty

    Александр, а вот это уже другой вопрос, причин может быть много.

    Ответить

  88. antonio

    Александр, мощностей у яшки не хватает. У всех сейчас долго яндекс индексирует. Вдобавок они ещё алгоритмы свои крутят в сторону отключения от ссылочного. Хотя как признался представитель яндекса они уже сами не понимают как работают ихние алгоритмы и как они ранжируют сайты. Вот такая вот петрушка)

    Ответить

  89. Серега

    Добрый день! У меня вопрос такой — если закрыть в файле категории и постраничную навигацию от индексации, не повлияет ли это на общую индексацию страниц (статей, как новых, так и старых)?
    Р.S. Внутренней перелинковки на моем сайте практически нет.

    Ответить

  90. Webliberty

    Серега, приветствую! Зависит от структуры URL. Если в адресе страницы со статьей нет категории — то можно закрывать; постраничную навигацию — без проблем, у меня закрыта. Лучше бы конечно адрес сайта посмотреть, чтобы не вышло недоразумения. Если не хотите афишировать — напишите мне на почту — разберемся что да как)

    Ответить

  91. Теоретик СЕО

    Денис, понравился ваш мануал и роботс. Кстати, видел у некоторых вебмастеров еще такую строчку:

    Disallow: /xmlrpc.php

    Это надо закрывать?

    Ответить

  92. Webliberty

    Используйте строку:

    Disallow: /*.php

    Это правило распространяется на все файлы с расширением .php

    Ответить

  93. Альберт

    Здравствуйте. А если у меня нет тэгов к моим записям? Нужно ли тогда прописывать в robots.txt запрет на тэги (/tag/)? Ни черта не понятно с этим robots.txt на wordpress! У меня автора записей нет — нужно ли автора запрещать в robots.txt?

    Ответить

  94. Ольга

    Добрый день, я новичок.
    У Вас очень интересные и понятные статьи, низкий поклон автору. Не могли бы Вы мне пояснить, если у меня на сайте для каждой статьи есть страница в рубриках, но каждая статья дублируется сокращенно на главной странице, то что мне лучше закрыть как дубль? Сами страницы со статьями или главную?

    Я по незнанию открыла доступ и туда и туда, считая, что таким образом привлеку трафик. Смешно, наверное 😀

    Ответить

  95. Webliberty

    Альберт, если теги не добавляете к статьям — в этой строчке нет надобности, но и вреда она тоже не принесет) У каждой страницы автор есть, пускай и не прописан в тексте — WP автоматически генерирует такие страницы с именем пользователя, лучше это правило оставить.

    Ольга, ничего не понял… Вы хотите закрыть от индексации страницы со статьями? Зачем тогда их нужно было писать?) Полный текст должен быть только на странице самой записи, анонсы на главной и страницах рубрик — небольшой фрагмент. Ни в коем случае нельзя закрывать главную страницу и страницы записей, а рубрики — на Ваше усмотрение.

    Ответить

  96. Lexium

    Век живи — век учись. Спасибо.

    Ответить

  97. wlad

    Как запретить индексацию сайта третьего уровня?

    Ответить

  98. Webliberty

    Что понимаете под сайтом третьего уровня? Если поддомен, то разместите файл в его корневой директории со следующим содержимым:

    User-agent: * 
    Disallow: /

    Ответить

  99. Дима

    Статья очень толковая, спасибо.

    У меня вопрос по поводу последнего комментария. Если нужно запретить индексацию поддомена, то в его директорию нужно добавить Robots.txt такого образца?

    User-agent: * 
    Disallow: /

    Или нужно что-то дописать? Например, адрес самого поддомена или обратиться конкретно к Яндексу?

    И ещё, если есть папка в корневой папке сайта, в которой тоже есть сайт, но он не зарегистрирован как поддомен, его индексацию нужно запретить таким же образом?

    Ответить

  100. Webliberty

    Все верно. Если желаете запретить индексирование во всех поисковых системах, то указывать User-agent не нужно, этих двух строк вполне достаточно.

    Папка в корне сайта не может являться поддоменом. В отдельном каталоге может быть установлен, например, форум: site.ru/forum/ Правила его обработки указываются в основном файле robots.txt для домена site.ru. Чтобы запретить его индексирование используют строку:

    Disallow: /forum/

    Надеюсь, что правильно понял вторую часть вопроса и ответил)

    Ответить

  101. Роман

    Спасибо большое! Сейчас сделаю срочно роботс, а то недавно создал сайт и все никак не начнет индексироваться Яндексом, пишет что через 1-2 обновления будет, но уже вторая неделя пошла… Может и выйдут страницы в поиск, но лучше все правильно сделать 😉

    Ответить

  102. Ирина

    Здравствуйте, подскажите пожалуйста нужно ли прописывать в robots.txt строчку:

    Disallow:/catagory/*/*

    Или она совсем не нужна?!

    Ответить

  103. Алексей

    Добрый день. У вас очень интересные статьи. На одном форуме нашел подозрительно короткий пример, в котором смущают последние 4 строки, что они значат?

    User-agent: *
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /xmlrpc.php
    Disallow: /template.html
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /?s=
    User-agent: Googlebot-Image
    Allow: /wp-content/uploads/
    User-agent: YandexImages
    Allow: /wp-content/uploads/

    Ответить

  104. Webliberty

    Ирина, для запрета доступа поисковых систем к индексированию категорий достаточно указать:

    Disallow:/catagory/

    Вы можете сами в этом убедиться, выполнив проверку файла с помощью специального инструмента.

    Алексей, эти строки разрешают индексировать картинки в папке /uploads/. Однако, есть небольшой нюанс: все что не запрещено — разрешено по-умолчанию, поэтому в данном случае нет смысла применять директиву Allow к отдельным каталогам.

    Ответить

  105. Мария

    Если возможность просмотреть robots.txt двухнедельной давности, после его изменений? Может в Сети площадка есть какая, которая заносит историю в базу данных, кто-то знает что-нибудь об этом?

    Спасибо!

    Ответить

  106. Webliberty

    Мария, о сервисах таких не слышал. Как правило, хостер выполняет резервное копирование файлов и базы данных, которые хранит в течение месяца — можно восстановить из архива.

    Ответить

  107. Саша

    Здравствуйте, скажите, не будет ли ошибкой добавить в robots.txt для вордпресс:

    Disallow: /*.php

    Заранее благодарен

    Ответить

  108. Webliberty

    Саша, здравствуйте. За несколько лет существования этой строки в моем файле ошибок не выявлено) Если в URL страниц нет расширения .php, значит все в порядке.

    Ответить

  109. Макс

    Добрый день! Не очень понятно следующее:

    Disallow: /feed/
    Disallow: */feed

    Они ведь дублируют друг дружку, нет?

    Также не очень понятно зачем вообще закрывать фид, если в сорсах странички часто идет <link rel="alternate" type="application/rss+xml" ….(альтернативное преставление текущего документа). Разве робот посчитает это дабл контентом?

    Спасибо!

    Ответить

  110. Webliberty

    Макс, привет! У WordPress генерируется множество RSS потоков (ссылка на страницу поддержки), поэтому желательно применять оба правила.

    В свое время я закрывал RSS, потому что Google индексировал все ленты комментариев к каждой статье, создавая огромное количество дублей. Даже правила доступа он игнорировал, приходилось временно отдавать по таким адресам 404 ошибку, чтобы исключить дубли из индекса.

    Ответить

  111. Дмитрий

    Привет, прочитал статью и у меня к вам такой вопрос — как разрешить индексировать файлы css, js, о котором говорится в нововведении гугла. Получил письмо следующего содержания:

    Googlebot не может получить доступ к файлам CSS и JS на сайте. Мы обнаружили на Вашем сайте проблему, которая может помешать его сканированию. Робот Googlebot не может обработать код JavaScript и/или файлы CSS из-за ограничений в файле robots.txt.

    Ответить

  112. Сергей

    Добрый день! Спасибо за адекватную статью. Уже на десятки сайтов ставил аналогичный robots но сейчас проблема когда проверяю сайт на дружелюбность к мобильным устройствам.

    Если папка themes закрыта, то пишет что не оптимизировано для мобильных. Видимо таким образом блокирую стили. Подскажите как исправить ситуацию.

    Спасибо!

    Ответить

  113. Webliberty

    Дмитрий, чтобы открыть доступ к сканированию этих файлов, дополните файл:

    Allow: /wp-content/themes/*.css
    Allow: /wp-content/plugins/*.css
    Allow: /wp-content/themes/*.js
    Allow: /wp-content/plugins/*.js

    Эти правила откроют доступ к индексированию стилей и скриптов. На своем блоге я не стал этого делать.

    Сергей, мой ответ также касается и Вашей проблемы.

    Ответить

  114. Виктор

    Здравствуйте, подскажите новичку. У меня на сайте есть страница блога — это по сути модуль темы, который показывает записи. Если я в роботе пропишу:

    Disallow: /category/

    Будут ли индексироваться статьи? Спасибо

    Ответить

  115. Webliberty

    Виктор, если речь идет о сайте в подписи, то страницы будут индексироваться, т.к. в их URL не содержится /category/

    Ответить

  116. Игорь

    Подскажите, нужно ли блокировать wp-comments, замечал что у некоторых в роботсе он есть, у других же отсутствует.

    Ответить

  117. Webliberty

    Игорь, в своей практике я не встречал страниц на WordPress сайтах со структурой URL, содержащей wp-comments. Поэтому, специально блокировать такие страницы нет нужды.

    Однако, если Вы сомневаетесь и при этом используете в качестве основы мою версию robots.txt, то строка ниже уже блокирует все URL, содержащие wp-:

    Disallow: /wp-

    Ответить

  118. Инвестор

    Действительно ли нужно прописывать вот это:

    Disallow: /page/

    Это же закроет все страницы вида site.ru/page/1, site.ru/page/2 и т.д. Ведь для них дубли закрыты! Например, дублями для них являются страницы с материалом автора, архивов дат, метки и особенно категории. Поясните, может не понимаю чего.

    Ответить

  119. Webliberty

    Инвестор, а разве на этих страницах есть уникальный контент? В большинстве случаев там дублируются первые предложения из статей, расположенные до тега <!--more-->

    Исключением могут быть случаи, когда используются уникальные отрывки для каждой записи, но на Вашем сайте я их не нашел.

    Ответить

  120. Инвестор

    Хм. Спасибо, по сути вы правы. Но эти страницы закрывают не все вебмастера, интересно, с какой целью тогда.

    Ответить

  121. Webliberty

    Инвестор, давным давно было выгодно искусственно завышать количество проиндексированных страниц с целью повышения дохода, например, в Sape. Может вошло в привычку 🙂

    Ответить

  122. Юлия

    Google наказывает сайты понижением в ранжировании за скрытие контента. Какие данные должны быть доступны для Google? 💡

    Ответить

  123. Webliberty

    Юлия, про Google это правда, но мало имеет отношения к robots.txt. Понижение в ранжировании происходит из-за клоакинга — когда пользователи и поисковый робот видят разный контент на странице.

    Ответить

  124. Светлана

    Здравствуйте! Которая статья и в которой все иначе чем в предыдущей) Я так понимаю robots.txt — это что-то из области уникального) Кстати, один из авторов пишет, что директива Host уже не актуальна и её необходимо удалить из robots.txt. Тоже самое и с Crawl-delay 🙄

    Ответить

  125. Webliberty

    Светлана, всё верно, robots.txt у каждого сайта должен быть свой, адаптированный к конкретным настройкам. Сюда входят постоянные ссылки, структура сайта, настройки индексации в SEO-плагинах и так далее. Поэтому крайне важно не слепо копировать инструкции, а подходить к вопросу с умом.

    Если вы внимательно читали статью, то должны были заметить заметку про окончание поддержки директивы Host 😉

    Ответить

  126. Иван

    Подскажите пожалуйста, почему некоторые закрывают feed по разному? В чем отличие между */feed/ и */feed?

    Ответить

  127. Webliberty

    Иван, к сожалению теги в комментариях не сохраняются без особого оформления, поэтому они исчезли и мне пришлось немного изменить ваш комментарий, надеюсь я правильно понял суть вопроса…

    Есть небольшое отличие:

    • */feed/ — на конце слэш, считается что это каталог (пускай и виртуальный),
    • */feed — слэш на конце отсутствует, таким образом будут запрещены все страницы в адресе которых содержится feed, включая статьи. Например, страница site.ru/feedburner.html будет заблокирована.

    Ответить

:) ;) :D :( :cry: :| :o :P 8-) :oops: :roll: :idea:

Отправляя комментарий, вы соглашаетесь с политикой конфиденциальности.