Что такое Robots txt – как правильно его составить и использовать?

robots txt

Что такое Robots txt?

Robots txt. – файл, содержащий в себе правила индексирования страниц для поисковых роботов и сообщающий им, на какие страницы Вашего сайта заходить можно, а к каким доступ ограничен.
Он создан для того, чтобы скрыть ненужный для сканирования и индексации контент на сайте, значительно облегчить работу поисковым системам и, в конечном счете, направить роботов только на важные страницы.

как работает robots txt

Как в примере на картинке, наличие файла robots.txt позволит избежать сканирования и дальнейшей индексации системных страниц сайта, которые не несут никакой полезной информации для посетителей и должны быть скрыты

Яндекс и Google постоянно обращаются к robots txt чтобы получить рекомендации по сканированию сайта. Если файл robots txt не обнаружен, то поисковым роботам приходится сканировать весь сайт и тратить свои ресурсы, в том числе, на нерелевантные страницы, что может привести к израсходованию краулингового бюджета.

Краулинговый бюджет– Лимит на сканирование страниц сайта поисковыми роботами. Простыми словами, это системное ограничение числа страниц, которые поисковые системы выделяют для сканирования Вашего сайта за заданный промежуток времени. 

Узнайте подробное о том, как краулинговый бюджет влияет на индексирование страниц и стоит ли Вам переживать за его значение.

Из чего состоит файл robots txt?

Стандартный вид файла robots txt:

Sitemap: [URL, с расположением карты сайта]

User-agent: *

[директива 1]

[директива 2]

[директива …]

User-agent: Yandex

[директива 1]

[директива 2]

[директива …]

С первого взгляда все может показаться сложно, но не пугайтесь, сейчас мы подробно расскажем про каждый элемент файла.
Все правила, которые прописаны в robots txt принято называть директивами, именно они указывают поисковым роботам, на какие страницы сайта можно заходить

User-agent – стандартная команда, указывающая для каких поисковых систем и роботов будут предназначены прописанные в ней директивы.


Например, в User-agent у нас прописана следующая команда:

User-agent: Googlebot
[Директива]

Это означает, что рекомендациям файла robots.txt будет следовать только Googlebot.
Вы можете прописать неограниченное количество User-agent для любых поисковых роботов, но чаще всего, в России используют User-agent: Googlebot и User-agent: Yandex. для Гугла и Яндекса соответственно.

User-agent: Googlebot
[Директива]
User-agent: Yandex
[Директива]

Значение * после user-agent открывает доступ к директивам для всех поисковых роботов.

User-agent: *
[Директива]

Есть мнение, что если мы указываем User-agent отдельно для каждого поискового робота, то мы увеличиваем свои шансы на успешное сканирование сайта.

Какие директивы robots txt существуют?

Директива Disallow – используется для того, чтобы закрыть от индексации определенные страницы и файлы. Например, если хотите закрыть доступ к странице с новостями, Ваш robots txt будет выглядеть так:

User-agent: *
Disallow: /news

Обязательство прописывайте путь к страницам, к которым закрываете доступ, иначе поисковые системы проигнорируют директиву Disallow.

Директива Allow – используется для того, чтобы сообщить поисковым системам, что они могут получить доступ к определенной странице из закрытого каталога в директории disallow. Например, запретили поисковым системам сканировать все записи на странице с новостями, кроме одной. В таком случае robots txt будет выглядеть так:

User-agent: *
Disallow: /news
Allow: /news/разрешенаая-запись

В таком случае, поисковые системы смогут зайти на страницу /news/разрешенная-запись , но не смогут получить доступ к остальным записям
/news/другая-запись
/news/новый-пост
Возможные конфликты между директивами robots txt
Разберем на примере

User-agent: *

Allow: /directory

Disallow: *.html

В теории, у поисковых систем могут возникнуть трудности, нужно обходить следующую страницу или нет? – http://www.domain.com/directory.html

Поисковые роботы пользуются простым правилом – принимать во внимание ту директиву, в которой больше символов.
Если количество символов одинаково, то они используют менее ограничивающую директиву, то есть в нашем примере, они получат доступ к сканированию страницы.

Директива Sitemap – используется для того, чтобы указать путь поисковым роботам к карте сайта. Sitemap выполняет роль навигатора для поисковых систем и содержит в себе все страницы, которые нужно индексировать.

Sitemap: https://www.domain.com/sitemap.xml
User-agent: *
Disallow: /news
Allow: /news/разрешенаая-запись

На самом деле, Если Вы добавили карту сайту в Яндекс вебмастер и google search console, для Яндекса и Гугла этого будет достаточно, но не стоит забывать, что существуют и другие поисковые системы, роботы которых пользуются рекомендацией этой директивы.

Директива Crawl-delay – в настоящее время не используется поисковыми роботами. Была предназначена для временного задела между сканированием страниц.

User-agent: Yandex

Crawl-delay: 5

Так мог выглядеть robots.txt если бы Вы хотели, чтобы поисковой робот Яндекса ждал 5 секунд после сканирования каждой страницы.

Вместо директивы Crawl-delay яндекс рекомендует настроить скорость обхода страницы в вебмастере.

Директива Clean-param – используется только роботами яндекса и позволяет исключить от иднексации страницы с изменяющимися параметрами URL (UTM метки, id страниц и так далее)

Разберем на примере двух страниц:

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123
www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123

Если мы пропишем директиву
Clean-param: ref /some_dir/get_book.pl
Поисковой робот Яндекса приведет их к одному формату и проиндексирует страницу www.example.com/some_dir/get_book.pl?book_id=123

Как создать файл robots txt?

Для создания файла можно использовать любой текстовый редактор, который может сохранить документ с разрешением txt.
Один из самых популярных вариантов – стандартный блокнот windows.

Откройте пустой файл, вписывайте нужные директивы и сохраните его под названием robots.txt

Создание robots.txt очень ответственная работа, одна неверная директива может закрыть доступ к сканированию всего сайта. Если не уверены в своих знаниях и силах, обратитесь к профессионалам.

Где расположить файл robots.txt?

Robots.txt должен располагаться в корневом каталоге сайта для которого он применяется.
Если адрес вашего сайта www.test.ru , то файл с robots.txt должен быть доступен по адресу www.test.ru/robots.txt

Заключительные мысли

Robots.txt оказывает большую помощь поисковым роботам и по праву считается одним из ключевых инструментов seo продвижения.
Если у Вас еще не составлен файл robots, сейчас самое время это исправить!

Последние статьи

Будьте в курсе самых актуальных новостей

Подпишитесь на рассылку и получайте полезные советы, которые можно мгновенно применить на практике


Подписаться