ГлавнаяФорумыЧАТWAP/WEB стройка

robots.txt и зачем он нужен F.A.Q

Nowak[171] (Off)
[21.01.13, 0:37]
В общем виде файл robots.txt должен содержать как минимумдве строки:
User-agent: *
Disallow: /images/
Звездочка означает, что данное правило (в нашем случае это запрет на индексацию папки с графикой) будет действовать для всех ботов.
Рассмотрим все на примере (данный пример, естественно, для JohnCMS)
User-agent: *
Disallow: /files/
Disallow: /images/
Disallow: /theme/
Disallow: /users/
Crawl-delay: 10
User-agent: Yandex
Disallow: /files/
Disallow: /images/
Disallow: /theme/
Disallow: /users/
Crawl-delay: 10
Host: site.ru
Итак, мы запретили к индексированию указанные разделы, в диррективе crawl-delay задали поисковому роботу минимальный период времени (в секундах) между концом закачки одной страницы и началом закачки следующей.
Для яндекса мы указали все отдельно, потому что для него мы указали еще и хост (основное зеркало без www).
Примечания:
Disallow: / - блокирует доступ ко всему сайту
Недопустимо наличие пустых переводов строки между директивами.
Не стоит в robots.txt указывать ссылки на админ-панели или на файл конфигурации.
Слишком большие robots.txt (более 32 Кб), а так же отдающие 404 ошибку (нет файла) считаются полностью разрешающими.
Последние ответы