Yutex - Платный хостинг PHP.
Advego.ru - система покупки и продажи контента для сайтов, форумов и блогов
Последние заметки

Валидный тег noindex

Правильный тег title

Замена текста в phpMyAdmin

Защита контента от копирования

Как вставить видео на сайт

Файл sitemap.xml

Файла robots.txt 2 ч.

Файл robots.txt

Настройка phpMyAdmin 1800 секунд

Защита партнёрских ссылок

Индексация сайта. Файла robots.txt

Дата добавления: 2013-01-30

Категория: Поисковые системы

Индексация сайта. Файла robots.txt

На этой страничке я начну рассказ о файле robots.txt. Эта тема достаточно обширна, поэтому, возможно, одной страницы для её обозрения не хватит.

Начнём с того, что любому веб-мастеру обязательно знать, что это за файл и как его правильно заполнить, так как все роботы поисковых систем при посещении сайта в первую очередь обращаются к файлу robots.txt.

Так вот, информация, заключённая в этом фале, задаёт роботам поисковых систем правила индексирования сайта.

 

Текстовый файл. Регистр. Директория

 

robots.txt - это текстовый файл. Его можно создать в редакторе Блокнот, сохранив с расширением .txt.

Для отдельно взятого сайта может быть создан только один файл robots.txt, единственно правильным размещением которого, является корневая директория сайта:

 

http://www.vashsite.ru/robots.txt

 

Обратите внимание на регистр букв в названии файла: имя файла должно состоять из строчных букв!

 

Директивы файла robots.txt

 

Директивы User-agent и Disallow являются основными директивами файла robots.txt. После каждой директивы User-agent должна следовать хотя бы одна инструкция Disallow.

 

Директива User-agent

 

Директива User-agent используется для указания робота, к которому применяется правило. Значением инструкции является имя робота:

 

Инструкция для поисковой системы Yandex

User-agent: yandex

Инструкция для поисковой системы Google

User-Agent: googlebot

Инструкция для поисковой системы Rambler

User-agent: StackRambler

Инструкция для всех роботов

User-agent: *

В файле robots.txt может быть только одна запись для всех роботов User-agent: *

 

Директива Disallow

 

Далее после директивы User-agent с указанием поискового робота следует директива Disallow, которая указывает, какие каталоги и файлы запрещены для индексации. Это могут быть папки с изображениями, скриптами, шрифтами, php-блоками, файлы со стилями, гостевая сайта, файлы-обработчики форм и иная служебная и личная информация...

В качестве значения директивы Disallow указывают относительный путь (относительно корневой директории сайта) к каталогу/файлу, который не следует индексировать. То есть, если требуется наложить запрет на индексацию файла index.html, расположенного в папке temp:

 

http://www.vashsite.ru/temp/index.html

 

то в файле robots.txt в качестве значения инструкции Disallow достаточно указать temp/index.html

 

Файл index.html, расположенный в каталоге temp, запрещён для индексации для всех поисковых роботов

User-agent: *

Disallow: temp/index.html

 

Инструкция Disallow является обязательной, поэтому, если Вы не хотите ничего запрещать, её следует указать пустой. А вот отсутствие значения для директивы User-agent не допустимо!

 

Для поискового робота Yandex всё разрешено (строка с директивой Disallow пуста)

User-agent: Yandex

Disallow:

 

Для поискового робота Yandex всё запрещено (установлен слэш «/»)

User-agent: Yandex

Disallow: /

 

Не допустимое использование директивы User-agent (пустая строка):

User-agent:

Disallow:

 

Каталог img закрыт от индексации для поискового робота Yandex

User-agent: Yandex

Disallow: /img/

 

Для поискового робота Yandex блокирован доступ ко всем страницам, начинающимся с /img

User-agent: Yandex

Disallow: /img

Каталог img и файл style.css закрыты от индексации для всех поисковых роботов

User-agent: *

Disallow: /img/

Disallow: /style.css

 

Каталог img закрыт от индексации для всех поисковых роботов, а файлы style.css и about.php только для поискового робота Yandex

User-agent: *

Disallow: /img/

 

User-agent: Yandex

Disallow: /style.css

Disallow: /about.php

 

Директива Allow

 

Инструкция Allow противоположна действию инструкции Disallow - она разрешает доступ к указанным файлам и папкам. Но директиву Allow понимает только поисковый робот Yandex.

Каталог seo закрыт от индексации, а файл index.php в папке seo разрешается индексировать поисковым роботом Yandex

User-agent: Yandex

Disallow: /seo/

Allow: /seo/index.php

 

Обратите внимание

  • Для каждого поискового робота следует использовать свою директиву User-agent

  • Для запрета индексации отдельной папки или файла следует использовать свою директиву Disallow. Таким образом, число инструкций Disallow не ограничено. Это же правило относится к инструкции Allow.

    Не следует помещать все файлы или каталоги, запрещённые или разрешённые для индексации, в одну инструкцию:

    Disallow: /seo/ /img/ /map.php

     

    Это правильная запись:

    Disallow: /seo/

    Disallow: /img/

    Disallow: /map.php

     

  • Между директивами User-agent и Disallow (Allow), задающими правила для одного робота, а также между инструкциями Disallow и Allow не должно быть пустой строки.

  • Между инструкциями User-agent рекомендуется оставить пустую строку (см. примеры выше).

  • Не рекомендуется ставить пробел в начале строк.

  • Каждая директива должна начинаться с новой строки.

Это основные положения, которые необходимо знать, для создания файла robots.txt.

На этой странице продолжим рассказ о файле robots.txt...

Количество просмотров: 2458


Ваши комментарии к заметке:

Комментариев нет...

Добавить Ваш комментарий:

Ваше Имя:

Текст комментария:

Решите задачу:
Реши задачу

Секреты практического SEO

На главную... Обратная связь... Наверх...