Файл robots.txt — это обыкновенный файл с расширением .txt, который можно создать с помощью обыкновенного блокнота Windows. Данный файл содержит инструкции по индексации для поисковых роботов. Размещают этот файл корневой директории на хостинге.
При заходе на сайт поисковый робот первым делом обращаются к файлу robots.txt для того, чтобы получить инструкции к дальнейшему действию и узнать, какие файлы и директории запрещены к индексированию. Файл robots.txt носит рекомендательный характер для поисковых систем. Нельзя стопроцентно сказать, что все файлы, на которые выставлен запрет к индексации, не будут в итоге индексироваться.
Рассмотрим простейший пример файла robots.txt. Данный файл содержит следующие строки:
User-agent: * Disallow: /wp-admin/ Disallow: /images/
Первая строка указывает для каких поисковых роботов действуют данные инструкции. В данном примере указана звездочка — это означает, что инструкции относятся ко всем поисковым роботам. В случае необходимости указания инструкции для конкретного поискового робота, необходимо прописать его имя. Вторая и третья строки запрещают индексацию директорий «wp-admin» и «images».
Для поискового робота Яндекса актуально также прописывать директорию Host для указания основного зеркала сайта:
User-agent: Yandex Disallow: /wp-admin/ Disallow: /images/ Host: yoursite.ru
Примеры написания файла robots.txt для конкретных задач
1. Не запрещать роботам любых поисковых систем индексировать сайт:
User-agent: * Disallow:
2. Запретить весь сайт к индексации всеми поисковыми роботами:
User-agent: * Disallow: /
3. Запретить весь сайт к индексации одним поисковым роботом (например, googlebot):
User-agent: googlebot Disallow: /
4. Не запрещать к индексации только одним роботом (например, googlebot) и запретить к индексации всем остальным поисковым роботам:
User-agent: googlebot Disallow:
5. Запретить к индексации всеми поисковыми роботами всех файлов в каталогах:
User-agent: * Disallow: /admin/ Disallow: /wp-content/ Disallow: /images/
6. Запретить к индексации всеми поисковыми роботами файлов в категории:
User-agent: * Disallow: /News/webnews.html Disallow: /content/page.php
7. Запретить к индексации всеми поисковыми роботами файлы:
User-agent: * Disallow: /page.php Disallow: /links.htm Disallow: /secret.html
Основные правила написания robots.txt
При написании файла robots.txt часто допускаются ошибки. Для того, чтобы их избежать, давайте рассмотрим основные правила написания robots.txt:
1. Писать содержимое файла нужно только в прописными буквами.
2. В инструкции Disallow необходимо указывать только одну директорию или один файл.
3. Строка «User-agent» не должна быть пустой. Если инструкция относится ко всем поисковым роботам, то необходимо указывать звёздочку, а если к конкретному поисковому роботу, то указывать его название.
4. Менять местами инструкции Disallow и User-agent нельзя.
5. В директиве Host, которая используется для Яндекса, адрес нашего сайта необходимо указывать без протокола HTTP и без закрывающего слэша.
6. При запрещении к индексации директорий необходимо обязательно прописывать слэши.
7. Следует проверить файл robots.txt перед загрузкой его на сервер. Это позволит избежать в будущем возможных проблем с индексацией сайта.
P.S. Готовый файл robots.txt для WordPress можно скачать, перейдя по ссылке.