Что такое Robots txt – как правильно его составить и использовать?
Что такое Robots txt?
Robots txt. – файл, содержащий в себе правила индексирования страниц для поисковых роботов и сообщающий им, на какие страницы Вашего сайта заходить можно, а к каким доступ ограничен. Он создан для того, чтобы скрыть ненужный для сканирования и индексации контент на сайте, значительно облегчить работу поисковым системам и, в конечном счете, направить роботов только на важные страницы.Как в примере на картинке, наличие файла robots.txt позволит избежать сканирования и дальнейшей индексации системных страниц сайта, которые не несут никакой полезной информации для посетителей и должны быть скрытыЯндекс и Google постоянно обращаются к robots txt чтобы получить рекомендации по сканированию сайта. Если файл robots txt не обнаружен, то поисковым роботам приходится сканировать весь сайт и тратить свои ресурсы, в том числе, на нерелевантные страницы, что может привести к израсходованию краулингового бюджета. Краулинговый бюджет– Лимит на сканирование страниц сайта поисковыми роботами. Простыми словами, это системное ограничение числа страниц, которые поисковые системы выделяют для сканирования Вашего сайта за заданный промежуток времени. Узнайте подробное о том, как краулинговый бюджет влияет на индексирование страниц и стоит ли Вам переживать за его значение.
Из чего состоит файл robots txt?
Стандартный вид файла robots txt:Sitemap: [URL, с расположением карты сайта]
User-agent: *
[директива 1]
[директива 2]
[директива …]
User-agent: Yandex
[директива 1]
[директива 2]
[директива …]
С первого взгляда все может показаться сложно, но не пугайтесь, сейчас мы подробно расскажем про каждый элемент файла. Все правила, которые прописаны в robots txt принято называть директивами, именно они указывают поисковым роботам, на какие страницы сайта можно заходить User-agent – стандартная команда, указывающая для каких поисковых систем и роботов будут предназначены прописанные в ней директивы. Например, в User-agent у нас прописана следующая команда:User-agent: Googlebot
[Директива]Это означает, что рекомендациям файла robots.txt будет следовать только Googlebot. Вы можете прописать неограниченное количество User-agent для любых поисковых роботов, но чаще всего, в России используют User-agent: Googlebot и User-agent: Yandex. для Гугла и Яндекса соответственно.
User-agent: Googlebot
[Директива]
User-agent: Yandex
[Директива]Значение * после user-agent открывает доступ к директивам для всех поисковых роботов.
User-agent: *
[Директива]Есть мнение, что если мы указываем User-agent отдельно для каждого поискового робота, то мы увеличиваем свои шансы на успешное сканирование сайта.
Какие директивы robots txt существуют?
Директива Disallow – используется для того, чтобы закрыть от индексации определенные страницы и файлы. Например, если хотите закрыть доступ к странице с новостями, Ваш robots txt будет выглядеть так:User-agent: *
Disallow: /newsОбязательство прописывайте путь к страницам, к которым закрываете доступ, иначе поисковые системы проигнорируют директиву Disallow. Директива Allow – используется для того, чтобы сообщить поисковым системам, что они могут получить доступ к определенной странице из закрытого каталога в директории disallow. Например, запретили поисковым системам сканировать все записи на странице с новостями, кроме одной. В таком случае robots txt будет выглядеть так:
User-agent: *
Disallow: /news
Allow: /news/разрешенаая-записьВ таком случае, поисковые системы смогут зайти на страницу /news/разрешенная-запись , но не смогут получить доступ к остальным записям /news/другая-запись /news/новый-пост Возможные конфликты между директивами robots txt Разберем на примере User-agent: * Allow: /directory Disallow: *.html В теории, у поисковых систем могут возникнуть трудности, нужно обходить следующую страницу или нет? – http://www.domain.com/directory.html Поисковые роботы пользуются простым правилом – принимать во внимание ту директиву, в которой больше символов. Если количество символов одинаково, то они используют менее ограничивающую директиву, то есть в нашем примере, они получат доступ к сканированию страницы.
скачайте руководство по подбору маркетинговых инструментов для b2b
узнайте, как эффективно распределять ресурсы, и выберите подходящие вам инструменты с помощью удобной сравнительной таблицы
Sitemap: https://www.domain.com/sitemap.xml
User-agent: *
Disallow: /news
Allow: /news/разрешенаая-записьНа самом деле, Если Вы добавили карту сайту в Яндекс вебмастер и google search console, для Яндекса и Гугла этого будет достаточно, но не стоит забывать, что существуют и другие поисковые системы, роботы которых пользуются рекомендацией этой директивы. Директива Crawl-delay – в настоящее время не используется поисковыми роботами. Была предназначена для временного задела между сканированием страниц.
User-agent: Yandex
Crawl-delay: 5
Так мог выглядеть robots.txt если бы Вы хотели, чтобы поисковой робот Яндекса ждал 5 секунд после сканирования каждой страницы. Вместо директивы Crawl-delay яндекс рекомендует настроить скорость обхода страницы в вебмастере. Директива Clean-param – используется только роботами яндекса и позволяет исключить от иднексации страницы с изменяющимися параметрами URL (UTM метки, id страниц и так далее) Разберем на примере двух страниц: www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 Если мы пропишем директиву Clean-param: ref /some_dir/get_book.pl Поисковой робот Яндекса приведет их к одному формату и проиндексирует страницу www.example.com/some_dir/get_book.pl?book_id=123Как создать файл robots txt?
Для создания файла можно использовать любой текстовый редактор, который может сохранить документ с разрешением txt. Один из самых популярных вариантов – стандартный блокнот windows. Откройте пустой файл, вписывайте нужные директивы и сохраните его под названием robots.txt Создание robots.txt очень ответственная работа, одна неверная директива может закрыть доступ к сканированию всего сайта. Если не уверены в своих знаниях и силах, обратитесь к профессионалам.Где расположить файл robots.txt?
Robots.txt должен располагаться в корневом каталоге сайта для которого он применяется. Если адрес вашего сайта www.test.ru , то файл с robots.txt должен быть доступен по адресу www.test.ru/robots.txtЗаключительные мысли
Robots.txt оказывает большую помощь поисковым роботам и по праву считается одним из ключевых инструментов seo продвижения. Если у Вас еще не составлен файл robots, сейчас самое время это исправить! Последние статьи- Частотность запросов – с чего начать SEO продвижение?
- Заголовки h1-h3 – фундамент внутренней оптимизации сайта
- Тег title – полное руководство для начинающих