Robots.txt — это простой текстовый документ, но с большими возможностями. Каждый сеошник обязан владеть навыками прописывания самых популярных директив. Для его написания используется кодировка UTF-8 и FTP, другие символы роботы не распознают или неправильно истолкуют. Именно с помощью этого документа, поисковые роботы знают, что можно сканировать, а что требуется обойти. В свою очередь это повышает рейтинг в поисковой выдаче. Но инструкции, описанные в роботс работают только в том хосте, где он размещен. О правилах создания мы поговорим далее.
Принцип работы
Прежде чем перейти к непосредственным инструкциям, разберемся, как же он поможет Вашему сайту. Для этого обратимся к поисковикам.
Алгоритмы поисковиков выполняют:
- ищут новую информацию, путем обхода сети интернет;
- сканирование поданной информации, для облегчения поиска результатов.
Благодаря доменным именам, поисковики имеют возможность посетить все интернет-ресурсы (а это огромное количество ссылок). Сразу же по прибытию бот ищет robots.txt и только после его прочтения приступает к дальнейшему исследованию интернет-сайта, выполняя прописанные правила. Если этот файл существует, то сканеру понятно, что можно обрабатывать и что с ними можно делать. Иначе, сканируется просто вся информация.
- Используйте только регистр «robots.txt», никаких заглавных букв!
- Учтите, что некоторые роботы могут проигнорировать существующий документ, поэтому не стоит его использовать для сокрытия особо секретных данных.
- Размер файла не должен превышать 500Kb.
Самый частый вопрос у новичков в SEO — «Что можно спрятать?». Ответ прост — все что угодно! Но сеошники обычно прячут не уникальные тексты, ссылки на сторонние интернет-ресурсы и т.д. Конечно лучше использовать исключительно уникальный контент, но это не всегда возможно (нормативные акты, юридическая документация и т.д.). Но если эту инфу проиндексировать, то рейтинг сильно понизится. Именно в этом случае нужно их скрыть.
Как создать?
Процесс создания совершенно несложный, так как это всего-лишь текстовый документ, размещенный в корневом каталоге. Создается он с помощью простого файл-менеджера, который использует программист для работы с вебсайтом. Но основная сложность заключается не в создании, а в наполнении документа. В нем указываются 3 основных инструкции:
- Disallow — полный запрет на сканирование;
- Allow — разрешается сканировать все содержимое;
- частичный доступ, где запрещаются на конкретные файлы. Их может быть неограниченное количество, главное каждый раз начинать с новой строчки.
Также применяют и другие кодировки, среди которых:
- User-Agent — для указания конкретного бота, которому разрешено выполнять индексирование;
- # — используется для написания комментария к конкретной строке. Все написанное после символа #, учитываться не будет.
- Host — указывает основное зеркало сайта. Но с недавнего времени его не обязательно указывать. Детальнее здесь.
- Crawl-delay — ограничивает скорость проверки Вашего вебсайта. Работает в тех случаях, когда у ресурса очень большая посещаемость, а роботы создают ненужную нагрузку и торможение системы.
- Sitemap — для указания места, где находится карта сайта;
- Clean-param — борется с дублированием текстов, фото и видео.
- * — означает работу директивы для любой поисковой системы;
- $ — конец строчки.
User-Agent/Disallow обязательно разделяются строкой без символов, но только не в случае замыкающей директивы Disallow. Учитывайте, что каталоги и имена учитывают регистр, и «name», «Name» и «NAME» будут рассматривать как отдельные директории.
Помните, что запрет применяется только к тому поисковику, который указан в этом блоке.
Что предпочтительней noindex или robots.txt?
Нельзя точно ответить на этот вопрос, поскольку они используются в разных случаях. Например, если Вы желаете, чтобы данная страница не индексировалась, то применяйте noindex в мета-теге. То-есть в разделе пропишите мета-тег:
<meta name=”robots” content=”noindex, follow”>
Теперь не нужно вручную удалять страницу с помощью Webmaster, поскольку она сама убирается из проверки при последующем сканировании.
Robots.txt, в свою очередь надежней скрывает от индекса админку, результаты поисковых запросов и разделы с личными данными (регистрация и восстановление пароля и логина)
Стоит ли проверять на ошибки?
Определенно да! Поскольку, Вы вполне могли ошибиться и случайно наложили запрет не на ту группу страниц. А это повлечет неприятные последствия.
Поэтому, сразу после окончания написания, удостоверьтесь в отсутствии опечаток. Примените:
- Google Вебмастерс. Требует авторизация и подтверждение владения сайтом. Позволяет:
- моментально обнаружить все существующие ошибки;
- сразу же откорректировать файлы, заново проверить и уже после перенести на свой ресурс;
- проверить, точно ли Вы закрыли/открыли все необходимые директивы правильно.
- Яндекс Вебмастер. Не требует авторизации и подтверждения владения веб-ресурсом. Экономит время и позволяет сразу задавать все страницы, а не поочередно, а также проверяет, поймет ли Яндекс все прописанные инструкции. Остальным же он схож с предыдущим.
Почему не работает?
Бывает, что даже после проверки и выполнения всех рекомендаций, роботс не работает. В чем причина?
- Проверьте, возможно Вы случайно заблокировали лишнюю папку или вообще весь веб-ресурс (такое тоже случается по неосторожности);
- Проверьте через Webmaster, возможно поисковики не могут переиндексировать ресурс;
- Уточните, нет ли внешних ссылок на страницу под запретом. В противном случае никакой запрет не поможет.
- Не торопитесь, и перед первым запуском, проделайте все описанные выше манипуляции, чтобы в дальнейшем сэкономить свое время.
- Помните, что любая защита, не может гарантировать стопроцентный успех. Везде встречаются осечки.
И напоследок, если сами боитесь сделать что-то не так, то сразу обращайтесь к профессионалам. Они смогут в кратчайшее время решить любую Вашу проблему и даже предотвратить ее. Прочитайте наш блог, вполне вероятно, что в нем Вы найдете массу нового и познавательного для себя. На все остальные вопросы, мы с удовольствием ответим лично. Статья в тему: 301-редирект — самое полное руководство.