facebook pixel
Закрыть

27.11.2019

SEO

Robots.txt — инструкция для SEO

Robots.txt — инструкция для SEO
Первое, с чего начинается внутренняя оптимизация вебсайта — это написание robots.txt. Если Вы не знаете, о чем это мы, то непременно читайте дальше, иначе рискуете рассекретить все свои личные данные и папки.

Robots.txt — это простой текстовый документ, но с большими возможностями. Каждый сеошник обязан владеть навыками прописывания самых популярных директив. Для его написания используется кодировка UTF-8 и FTP, другие символы роботы не распознают или неправильно истолкуют. Именно с помощью этого документа, поисковые роботы знают, что можно сканировать, а что требуется обойти. В свою очередь это повышает рейтинг в поисковой выдаче. Но инструкции, описанные в роботс работают только в том хосте, где он размещен. О правилах создания мы поговорим далее.

Принцип работы

Прежде чем перейти к непосредственным инструкциям, разберемся, как же он поможет Вашему сайту. Для этого обратимся к поисковикам.

Алгоритмы поисковиков выполняют:

  • ищут новую информацию, путем обхода сети интернет;
  • сканирование поданной информации, для облегчения поиска результатов.

Благодаря доменным именам, поисковики имеют возможность посетить все интернет-ресурсы (а это огромное количество ссылок). Сразу же по прибытию бот ищет robots.txt и только после его прочтения приступает к дальнейшему исследованию интернет-сайта, выполняя прописанные правила. Если этот файл существует, то сканеру понятно, что можно обрабатывать и что с ними можно делать. Иначе, сканируется просто вся информация.

  • Используйте только регистр «robots.txt», никаких заглавных букв!
  • Учтите, что некоторые роботы могут проигнорировать существующий документ, поэтому не стоит его использовать для сокрытия особо секретных данных.
  • Размер файла не должен превышать 500Kb.

Самый частый вопрос у новичков в SEO — «Что можно спрятать?». Ответ прост — все что угодно! Но сеошники обычно прячут не уникальные тексты, ссылки на сторонние интернет-ресурсы и т.д. Конечно лучше использовать исключительно уникальный контент, но это не всегда возможно (нормативные акты, юридическая документация и т.д.). Но если эту инфу проиндексировать, то рейтинг сильно понизится. Именно в этом случае нужно их скрыть.

Robots.txt — инструкция для SEO

Как создать?

Процесс создания совершенно несложный, так как это всего-лишь текстовый документ, размещенный в корневом каталоге. Создается он с помощью простого файл-менеджера, который использует программист для работы с вебсайтом. Но основная сложность заключается не в создании, а в наполнении документа. В нем указываются 3 основных инструкции:

  • Disallow — полный запрет на сканирование;
  • Allow — разрешается сканировать все содержимое;
  • частичный доступ, где запрещаются на конкретные файлы. Их может быть неограниченное количество, главное каждый раз начинать с новой строчки.

Также применяют и другие кодировки, среди которых:

  • User-Agent — для указания конкретного бота, которому разрешено выполнять индексирование;
  • # — используется для написания комментария к конкретной строке. Все написанное после символа #, учитываться не будет.
  • Host — указывает основное зеркало сайта. Но с недавнего времени его не обязательно указывать. Детальнее здесь.
  • Crawl-delay — ограничивает скорость проверки Вашего вебсайта. Работает в тех случаях, когда у ресурса очень большая посещаемость, а роботы создают ненужную нагрузку и торможение системы.
  • Sitemap — для указания места, где находится карта сайта;
  • Clean-param — борется с дублированием текстов, фото и видео.
  • * — означает работу директивы для любой поисковой системы;
  • $ — конец строчки.

User-Agent/Disallow обязательно разделяются строкой без символов, но только не в случае замыкающей директивы Disallow. Учитывайте, что каталоги и имена учитывают регистр, и «name», «Name» и «NAME» будут рассматривать как отдельные директории.

Помните, что запрет применяется только к тому поисковику, который указан в этом блоке.

Что предпочтительней noindex или robots.txt?

Нельзя точно ответить на этот вопрос, поскольку они используются в разных случаях. Например, если Вы желаете, чтобы данная страница не индексировалась, то применяйте noindex в мета-теге. То-есть в разделе пропишите мета-тег:

<meta name=”robots” content=”noindex, follow”>

Теперь не нужно вручную удалять страницу с помощью Webmaster, поскольку она сама убирается из проверки при последующем сканировании.

Robots.txt, в свою очередь надежней скрывает от индекса админку, результаты поисковых запросов и разделы с личными данными (регистрация и восстановление пароля и логина)

Стоит ли проверять на ошибки?

Определенно да! Поскольку, Вы вполне могли ошибиться и случайно наложили запрет не на ту группу страниц. А это повлечет неприятные последствия.

Поэтому, сразу после окончания написания, удостоверьтесь в отсутствии опечаток. Примените:

  • Google Вебмастерс. Требует авторизация и подтверждение владения сайтом. Позволяет:
    • моментально обнаружить все существующие ошибки;
    • сразу же откорректировать файлы, заново проверить и уже после перенести на свой ресурс;
    • проверить, точно ли Вы закрыли/открыли все необходимые директивы правильно.
  • Яндекс Вебмастер. Не требует авторизации и подтверждения владения веб-ресурсом. Экономит время и позволяет сразу задавать все страницы, а не поочередно, а также проверяет, поймет ли Яндекс все прописанные инструкции. Остальным же он схож с предыдущим.

Почему не работает?

Бывает, что даже после проверки и выполнения всех рекомендаций, роботс не работает. В чем причина?

  • Проверьте, возможно Вы случайно заблокировали лишнюю папку или вообще весь веб-ресурс (такое тоже случается по неосторожности);
  • Проверьте через Webmaster, возможно поисковики не могут переиндексировать ресурс;
  • Уточните, нет ли внешних ссылок на страницу под запретом. В противном случае никакой запрет не поможет.
  • Не торопитесь, и перед первым запуском, проделайте все описанные выше манипуляции, чтобы в дальнейшем сэкономить свое время.
  • Помните, что любая защита, не может гарантировать стопроцентный успех. Везде встречаются осечки.

И напоследок, если сами боитесь сделать что-то не так, то сразу обращайтесь к профессионалам. Они смогут в кратчайшее время решить любую Вашу проблему и даже предотвратить ее. Прочитайте наш блог, вполне вероятно, что в нем Вы найдете массу нового и познавательного для себя. На все остальные вопросы, мы с удовольствием ответим лично. Статья в тему: 301-редирект — самое полное руководство.

Comments

  • Инна

    Блог у вас очень интересный и познавательный! Мне основная часть информации очень понятна, ну если возникают какие то спорные моменты или же не чувствуете в себе достаточно сил и умений, то лучше обратиться к профессионалам!

    28.11.2019
    reply

Оставить комментарий