«Единственный способ творить великие дела – это любить то, что ты делаешь»
SEO


На этой странице пойдет речь о файле robots.txt. Любому веб-разработчику обязательно знать, что это за файл и как его правильно составить, так как все роботы поисковых систем при посещении сайта в первую очередь обращаются к файлу robots.txt.

robots.txt - это текстовый файл с расширением .txt и его можно создать в редакторе Блокнот. Имя файла должно состоять из строчных букв.

Для отдельно взятого сайта может быть создан только один файл robots.txt.

Единственно правильным размещением файла robots.txt является корневая директория сайта.

Информация, заключённая в фале robots.txt, задаёт роботам поисковых систем правила индексирования сайта.

Далее рассмотрим директивы, согласно которым эти правила устанавливаются. Директивы User-agent и Disallow являются обязательными при составлении файла robots.txt. После каждой директивы User-agent должна следовать хотя бы одна инструкция Disallow.



Директива User-agent

Директива User-agent используется для указания имени робота, к которому применяется правило.

Отсутствие значения для директивы User-agent не допустимо.

Перед каждой директивой User-agent следует вставлять пустой перевод строки.

Примеры использования директивы User-agent.

Правило применимо для всех роботов поисковой системы Яндекс

User-agent: Yandex

Символ # служит для составления комментариев. Следующий за этим символом текст не воспринимается ботами до первого переноса строки.

# Регистр в имени бота значения не имеет

Правило применимо для основного робота поисковой системы Google

User-Agent: Googlebot

Правило применимо для поисковой системы Rambler

User-agent: StackRambler

Не допустимое использование директивы User-agent: пустая строка

User-agent:

Правило применимо для всех роботов поисковых систем

User-agent: *

В файле robots.txt может быть только одна запись для всех роботов User-agent: *.

Читайте в сервисе «Яндекс.Помощь» раздел «Индексирование сайта - Robots.txt» о нюансах в применении значений * и Yandex.

Директива Disallow

После директивы User-agent с указанием имени поискового робота следует директива Disallow, которая указывает, какие каталоги и файлы запрещены для индексации. Как правило, это папки с изображениями, скриптами, шрифтами, php-блоками, а также файлы со стилями, файлы-обработчики форм и иная служебная и личная информация.

В качестве значения директивы Disallow указывают относительный путь к каталогу/файлу, который не следует индексировать.

Директива Disallow является обязательной, поэтому, если нет необходимости что-либо запрещать, её следует указать пустой.

Примеры использования директивы Disallow.

Файл index.html, расположенный в каталоге temp, запрещён для индексации для всех поисковых роботов

User-agent: *
Disallow: temp/index.html

Для поискового робота Yandex всё разрешено (строка с директивой Disallow пуста)

User-agent: Yandex
Disallow:

Для поискового робота Yandex всё запрещено, так как стоит слэш «/»

User-agent: Yandex
Disallow: /

Каталог img закрыт от индексации для поискового робота Yandex

User-agent: Yandex
Disallow: /img/

Для поискового робота Yandex блокирован доступ ко всем страницам, начинающимся с /img

User-agent: Yandex
Disallow: /img

Каталог img и файл style.css закрыты от индексации для всех поисковых ботов

User-agent: *
Disallow: /img/
Disallow: /style.css

Каталог img закрыт от индексации для всех поисковых роботов, а файлы style.css и about.php закрыты только для поискового робота Yandex

User-agent: *
Disallow: /img/

User-agent: Yandex
Disallow: /style.css
Disallow: /about.php

Директива Allow

Директива Allow разрешает доступ к указанным файлам и папкам и противоположна действию инструкции Disallow.

Пример использования директивы Allow.

Каталог seo закрыт от индексации, а файл index.php в папке seo разрешается индексировать поисковым роботом Yandex

User-agent: Yandex
Disallow: /seo/
Allow: /seo/index.php

Обратить внимание

Для каждого поискового робота следует использовать свою директиву User-agent.

Для запрета индексации отдельной папки или файла следует использовать свою директиву Disallow. Таким образом, число инструкций Disallow не ограничено. Это же правило относится к директиве Allow.

Не следует помещать все файлы или каталоги, запрещённые или разрешённые для индексации, в одну инструкцию.

Это не правильная запись:

Disallow: /seo/ /img/ /map.php

Это правильная запись:

Disallow: /seo/
Disallow: /img/
Disallow: /map.php

Директива Sitemap

Директива Sitemap используется для указания пути к файлу sitemap.xml, который служит для описания структуры сайта.

Если на сайте используется несколько файлов sitemap.xml, то с помощью директивы Sitemap следует указать путь к каждому из них (для каждого из файлов нужна своя директива).

Директиву Sitemap удобно размещать в конце файла robots.txt, но она может располагаться в любом месте.

Пример использования директивы Sitemap.

User-agent: Yandex
Disallow: /seo/
Allow: /seo/index.php

User-agent: *
Disallow: /img/

Sitemap: https://komp36.ru/sitemap_1.xml
Sitemap: https://komp36.ru/sitemap_2.xml

Директивы Host и Crawl-delay

Директиву Host, которая служила для указания главного зеркала сайта, в скором времени заменит редирект 301.

Директива Crawl-delay отвечала за то, как часто поисковый робот может обращаться к сайту.

С 22 февраля 2018 года Яндекс не учитывает директиву Crawl-delay.

Вместо нее в сервисе Яндекс.Вебмастер в разделе «Индексирование» появился инструмент «Скорость обхода», где автоматически, с учетом нагрузки на сервер подбирается максимальная скорость обхода конкретно для каждого сайта.

О причинах отказа от директивы Crawl-delay и появлении сервиса «Скорость обхода» читайте здесь.

Отзывы и комментарии:

Комментариев нет...

Оставить отзыв:

Ваше Имя:

Текст комментария:

Ответьте на вопрос:

Сколько дней в Високосном году?


Поисковые системы
Как правильно составить файл robots.txt?
5178
Как определить главное зеркало сайта?
1740
Как правильно составить файл sitemap.xml?
11150
Последние заметки
Популярные заметки