Проверка прав доступа ПС к содержимому сайта

И вновь приветствую! В продолжение предыдущей темы я бы хотел озвучить такой аспект, как проверка прав доступа поисковых роботов к страницам сайта. Иными словами имеет ли право поисковый бот индексировать страницу и размещать ее в результатах поиска.

Закрыть страницу от индексации

Для чего это нужно и где может пригодиться? Главное практическое применение — проверка директив файла robots.txt, закрывающих доступ к разделам или отдельным страницам сайта, т.е. идет проверка разрешено индексировать страницу или нет. Кроме robots могут применяться и другие методы для ограничения доступа, например .htaccess, мета-тег noindex.

Иногда так случается, что начинающий автор блога или администратор сайта не до конца разобрался с составлением роботса и не уверен все ли правильно он сделал — на помощь приходят удобные инструменты для проверки. Давайте разберемся на примерах, а в качестве этих инструментов сегодня выступают Анализ robots.txt и Просмотреть как Googlebot в Яндекс и Гугле соответственно.

Анализ robots.txt в Яндекс

Для проверки доступа робота Яндекса к странице следует пользоваться инструментом под названием Анализ robots.txt из панели Яндекс Вебмастер. Найти его можно по ссылке на главной странице панели ЯВ.

Проверка прав доступа к странице поискового робота Яндекса

В поле Имя хоста требуется вставить адрес главной страницы и нажать на кнопку Загрузить robots.txt с сайта, после чего содержимое файла будет отображено в текстовом поле ниже. Следующий шаг — добавляем Список URL — по одному адресу на строку и нажимаем на кнопку проверить. Еще ниже появится результат проверки URL — разрешен или запрещен доступ. Таким образом можно проверить правильно ли обрабатываются директивы роботса и все ли лишние страницы закрыты от индексации.

Просмотреть как Googlebot

Для проверки доступа робота Google к страницам воспользуемся аналогичным инструментом из панели для вебмастеров, который называется Просмотреть как Googlebot. В текстовом поле вставляем адрес страницы, выбираем тип поискового бота и нажимаем на кнопку Получить содержание. Через несколько секунд запрос будет обработан и указан статус получения — успешно или запрещено в файле robots.txt. Существует ограничение на просмотр страниц: 500 адресов на каждые десять дней.

Просмотреть как Googlebot и отправить страницу в индекс

Относительно недавно появилась функция Отправить в индекс — страницу которую отправили на проверку можно отправить на индексацию. При переходе по соответствующей ссылке откроется окно с правом выбора, состоящим из двух вариантов: отправить на индексирование только данный URL или URL и все связанные страницы.

Отправка URL на индексирование

При отправке URL на индексирование обратите внимание на примечание: «Google не может гарантировать, что все отправленные URL будут проиндексированы».

На этом возможности инструмента не заканчиваются. Если запрос выполнен и статус получения содержимого страницы успешный, то перейдя по ссылке «Успешно» мы увидим исходный код страницы таким, каким его видит робот, ответ сервера и время загрузки страницы:

Результат сканирования страницы Googlebot

В том случае, если получение содержимого будет запрещено в файле robots.txt, то при переходе по соответствующей ссылке в строке запроса в графе Статус получения видим такой отчет:

Googlebot не удалось проиндексировать страницу

Кроме того, используя инструмент Просмотреть как Googlebot у вебмастеров есть возможность выбора типа поискового робота, по-умолчанию используется Веб, весь список такой:

  • Веб;
  • Для мобильных устройств: XHTML/WML;
  • Для мобильных устройств: cHTML;
  • Mobile: Smartphone.

Вот все, о чем я сегодня хотел рассказать, есть у Вас есть идеи или предложения для новых тем — пишите на почту, мои контактные данные можно найти на этой странице.

  1. 5
  2. 4
  3. 3
  4. 2
  5. 1
(1 голос, в среднем: 5 из 5)
  1. Андрей

    Google не может гарантировать, что ваша страница будет проиндексирована 🙂

    Ответить

  2. Юрий

    Поставил интернет-подруге на поддомене Вордпресс, она туда навтыкала статей из интернета — я ей начал долбить про уникальность, написала несколько уникальных статей, решил зарегистрировать сегодня в Яндексе, в роботс все как положено и что же — Яндекс все 26 копий уже 29 сентября проиндексировал, а Гугл одну статью 100% скопированную из Википедии на 18 место из 81 тысячи найденных поставил, не стал другие смотреть, может тоже в топе 😀

    Невольно приходит в голову забавная мысль — не из той же ли «оперы», что и глобальное потепление, при аномально холодной зиме и прохладном лете все эти уникальности, валидности, дублированные контенты? 💡

    Ответить

  3. Webliberty

    Андрей, все верно 🙂 Отправляя страницу на индексирование подразумевается что она открыта для робота и удовлетворяет требованиям поисковой системы, в противном случае она не будет участвовать в поиске.

    Юрий, сайт новый и можно предположить что он словил так называемый «бонус новичка», когда страницы нового сайта ранжируются выше, что со временем может пройти. Или же сыграл какой-то фактор, выдвигающий страницу вперед среди прочих равных. Время покажет и расставит все на свои места, однозначно могу сказать, что в дальнейшем качество выдачи будет улучшаться, поэтому следует ставить свою работу таким образом, чтобы не словить нагоняев от ПС 😀

    Ответить

  4. Александр

    Привет, про проверку от google полезно. Кстати, можно проверить страницу, закинув ее в поиск и нажав кнопку «копия» у Яндекс и «Сохраненная копия» у гугл.

    Ответить

  5. 1tasha

    Добрый день! Подскажите пожалуйста. Я новичок в этих всяких заморочках, пока совсем до конца не разобралась. Как мне добавить свой сайт, что бы индексировались мои страницы? Заранее спасибо.

    Ответить

  6. Webliberty

    1tasha, во-первых как можно скорее создайте файл robots.txt и настройте правила индексирования, а затем добавьте сайт в поисковые системы через специальные формы. В Гугле сайт уже проиндексирован, а вот Яндекс пока не торопиться.

    Ответить

:) ;) :D :( :cry: :| :o :P 8-) :oops: :roll: :idea:

Отправляя комментарий, вы соглашаетесь с политикой конфиденциальности.