Управление индексацией сайта (файл Robots.txt)

Управление индексацией сайта всеми поисковыми системами возможно с помощью файла robots.txt, который лежит на сервере. Этот файл сообщает поисковым роботам (ботам), какие файлы они могут индексировать, а какие нет.

Файл robots.txt состоит из записей. Каждая запись состоит как минимум из двух строк: строки с названием клиентского приложения — User-agent, и одной или нескольких строк, начинающихся с директивы Disallow. Пустые строки в файле robots.txt являются значимыми, они разделяют записи, имеющие разные строки User-agent.

User-agent

Строка User-agent служит для указания названия бота. Например в следующей строке указано название поискового робота Google — «googlebot»:
User-agent: googlebot

Бот Яндекса — «Yandex»
Бот Рамблера — «StackRambler»
Бот Yahoo! — «Yahoo! Slurp»
Бот MSN — «msnbot»

Бот Яндекса — «Yandex»Бот Рамблера — «StackRambler»Бот Yahoo! — «Yahoo! Slurp»Бот MSN — «msnbot» Названия других роботов вы можете найти в логах Вашего сервера.

Если Вы хотите запретить индексацию файлов и/или папок всеми поисковыми системами, то Вы можете использовать символ подстановки «*»:
User-agent: *

Disallow

Вторая часть записи состоит из строк Disallow. Эти строки — директивы для данного робота (или для нескольких роботов). Они сообщают роботу какие файлы и/или папки запрещено индексировать.

Например следующая директива запрещает индексировать файл «image.htm», находящийся в корневой директории сайта:
Disallow: image.htm

Директива может содержать и название папки. Например следующая директива запрещает индексацию папки «image», которая находится в корневой директории сайта:

Директива может содержать и название папки. Например следующая директива запрещает индексацию папки «image», которая находится в корневой директории сайта:
Disallow: /image/

Следующая директива запретит ботам индексировать и файл «catalog.html», и папку «catalog»:

Следующая директива запретит ботам индексировать и файл «catalog.html», и папку «catalog»:
Disallow: /catalog

Если директива Disallow будет пустой, это значит, что робот может индексировать все файлы. Как минимум одна директива Disallow должна присутствовать для каждого поля User-agent, чтобы robots.txt был корректно воспринят поисковыми системами. Полностью пустой robots.txt означает то же самое, что и его отсутствие на сервере.

Если директива Disallow будет пустой, это значит, что робот может индексировать все файлы. Как минимум одна директива Disallow должна присутствовать для каждого поля User-agent, чтобы robots.txt был корректно воспринят поисковыми системами. Полностью пустой robots.txt означает то же самое, что и его отсутствие на сервере.

Примеры правильно составленных robots.txt

Всем поисковым системам разрешено полностью индексировать сайт:
User-agent: *
Disallow:

Индексация сайта запрещена всеми поисковыми системами:

Индексация сайта запрещена всеми поисковыми системами:
User-agent: *
Disallow: /

Запрет на индексацию папки «image» всеми поисковыми системами:

Запрет на индексацию папки «image» всеми поисковыми системами:
User-Agent: *
Disallow: /image/

Запрет на индексацию файла «image.htm» всеми поисковыми системами:

Запрет на индексацию файла «image.htm» всеми поисковыми системами: Disallow: image.htm

Запрет на индексацию файла «image.htm» и папки «cgi-bin» всеми поисковыми системами:

Запрет на индексацию файла «image.htm» и папки «cgi-bin» всеми поисковыми системами:
User-Agent: *
Disallow: /cgi-bin/
Disallow: image.htm

Запрет на индексацию файла «image.htm» для робота Google — «googlebot»:

Запрет на индексацию файла «image.htm» для робота Google — «googlebot»:
User-agent: googlebot
Disallow: download.htm

Комментарии

Любой текст от знака решетки “#” до конца строки считается комментарием и поисковыми ботами игнорируется. Пример:
# Yahoo! No index.
User-agent: Yahoo! Slurp
Disallow: /

Статья взята и немного изменена с:

http://web-blog.ru/2005/12/09/robots/