Файл robots.txt

Первый шаг, который предпринимает работ поисковой системы при заходе на ваш сайт для его индексации - он читает файл robots.txt. Файл robots.txt содержит информацию, какие страницы и каталоги следует индексировать, а какие от индексации закрыты. Очень важно корректно и грамотно заполнить файл robots.txt - небольшая ошибка в этом файле может привести к весьма неприятным результатам. И самое неприятное - если вы допустите ошибку в файле robots.txt - никто вам на нее не укажет, компилятора тут нет ). Поэтому исправить ее будет не так просто, а результатом будут месяцы без индексации сайта или его части.

Что из себя представляет файл robots.txt – это обычный текстовый файл, располагающийся в корневой директории сайта. В этом файле содержатся инструкции для поисковых роботов, причем можно задавать как общие инструкции, так и конкретизировать их для конкретных роботов (Яндекс, Google и т.д.).

Нюансы при создании файла robots.txt:

  • файл robots.txt должен содержать в своем названии только буквы нижнего регистра, то есть нельзя называть этот файл Robots.txt или ROBOTS.TXT
  • файл robots.txt должен быть размещен в корневой директории сайта, иначе робот его просто не найдет либо не примет во внимание

Плавно переходим к содержимому файла robots.txt

Давайте посмотрим на пример файла robots.txt:


User-agent: *
Disallow: /tmp/
Disallow: /admin/
Allow: /admin/img/
Host: http://saytoshop.ru
Sitemap: http://saytoshop.ru/sitemap.xml

О чем тут речь? - давайте разберемся:

User-agent: *. Звездочка в данной строке означает, что далее следуют инструкции для всех роботов. Если вместо "*" вы поставите "Yandex" - это будет означать, что инструкции ниже относятся только для робота Яндекса.

Далее следуют собственно перечисления каталогов, которые следует закрыть от индексации. путь к каталогу предваряется директивой "Disallow:", при написании имени каталога можно использовать стандартную маску: * - звездочку, которая означает любое количество символов.

Учтите, что конструкция Disallow: /site*/ закроет от индексации страницы, располагающиеся в каталогах site1, siteold и т.д., а конструкция Disallow: /site* закроет от индексации те же самые страницы, плюс страницы, располагающиеся в корне вашего сайта, начинающиеся на "site". Это очень важный момент. Не поставив единственный слеш, в данном примере вы закрыли от индексации файл sitemap.xml со всеми вытекающими последствиями.

Allow: /admin/img/  - разрешает роботу индексировать страницы в папке /admin/img/. Обратите внимание, несмотря на то, что папка /admin/ закрыта от индексации директивой Disallow: /admin/, можно явно разрешить индексацию конкретных папок внутри этой папки, явно это указав в Allow.

Host: http://saytoshop.ru  - указывает на основное зеркало сайта.

Sitemap: http://saytoshop.ru/sitemap.xml если вы используете карту сайта в формате xml - директива Sitemap используется для указания пути к файлу с картой сайта.

Пример файла robots.txt для WordPress:


User-agent: *  
Disallow: /wp-admin/  
Disallow: /wp-includes/  
Disallow: /wp-trackback  
Disallow: /wp-feed  
Disallow: /wp-comments  
Disallow: /wp-content/plugins  
Disallow: /wp-content/themes  
Disallow: /wp-login.php  
Disallow: /wp-register.php  
Disallow: */trackback  
Disallow: */feed  
Disallow: /cgi-bin  
Disallow: *?s=  
Host: saytoshop.ru

 

Теги: SEO

Сообщение отправлено

Закрыть