Использование Robots.txt
robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать или разрешать к индексации некоторые разделы или страницы на сайте, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д.
Создание данного файла являеться ,конечно не обязательным действием ,но во многих случаях может пригодиться. Например если у Вас есть на сайте VIP-раздел, вход в который только для определённого круга людей или скществуют определенные участки или элементы сайта, которые Вы хотите скрыть от поисковых роботов. К тому же не все роботы, посещающие Ваш веб-сайт, являются «гонцами» поисковых машин! Существует множество роботов, единственная цель которых состоит в том, чтобы просканировать Ваш веб-сайт на наличие e-mail адресов.
Создать файл можно в любом текстовом редакторе ,а затем добавить его в корень вашего сайта, причем не имеет значения статичный ваш сайт или использует php скрипты. Подробное руководство всех возможных значений файла robots.txt вы можете посмотреть на специализированном ресурсе
- Поле User-agent содержит название робота.
User-agent: googlebot (если вы хотите обратиться ко всем роботам то значение будет таким: « User-agent: *» )
- Поле Disallow сообщает роботу какие файлы и/или каталоги роботу неразрешено индексировать.
Disallow: admin.htm (запрещает индексировать файл admin.htm)
- Поле Allow Указывает какие директории разрешены к индексации
Allow: /demo (Указывает роботу о том ,что разрешен к индексации каталог начинающийся с «/demo»)
- Использование спецсимволов «*» и «$» задает определенные регулярные выражения.
Disallow: /cgi-bin/*.aspx (запрещает '/cgi-bin/"любое имя".aspx' )
Disallow: /example$ ( запрещает только '/example' )
- Поле Sitemap: указывает роботу размешение файла с картой сайта
Sitemap: http://www.kismedia.ru/sitemap.xml
- Пробелы и комментарии Любая строка в robots.txt, начинающаяся с #, считается комментарием.
Пример содержимого файла robots.txt :
Sitemap: http://www.kismedia.ru/sitemap.xml User-agent: Yandex Allow: / Sitemap: http://www.kismedia.ru/sitemap.xml # Указывает яндексу расположение карты сайта User-agent: * Disallow: /wp-admin Disallow: /wp-includes # запрещает индексацию каталогов начинающихся с /wp-admin и /wp-includes User-agent: Google Allow: /cgi-bin Disallow: / # запрещает скачивать все, кроме страниц # начинающихся с '/cgi-bin' Disallow: /example$ # запрещает '/example', # но не запрещает '/example.html' Disallow: /cgi-bin/*.aspx # запрещает '/cgi-bin/example.aspx' # и '/cgi-bin/private/test.aspx' Disallow: /*private # запрещает не только '/private', # но и '/cgi-bin/private'