Файл robots.txt — это основной файл, описывающий правила обработки страниц поисковым роботов. Данный файл нужен для указания основного имени сайта, карты сайта (sitemap.xml), открытых и закрытых разделов сайта.
Файл robots.txt включает следующие директивы:
- User-agent — директива указывающая для какого робота нижеследующие правила
- * - все роботы
- Yandex — основной робот Яндекс
- Googlebot — основной робот Google
- StackRambler — поисковый робот Рамблер
- Aport — поисковый робот Апорт
- Slurp — робот Yahoo
- MSNBot — робот MSN
- Disallow — директива запрета части сайта
- Allow — директива разрешения части сайта
- Host — директива указания основного имени сайта
- Sitemap— директива указания карты сайта (sitemap.xml)
- Crawl-delay — директива указывающая сколько секунд робот может ждать ответа от сайта (необходима на сильно загруженных ресурсах, чтобы робот не посчитал сайт недоступным)
- Clean-param — директива описывающая динамические параметры не влияющие на содержимое сайта
Помимо директив в robots.txt используются спец символы:
- * - любай (в том числе и пустая) последовательность символов
- $ — является ограничением правила
Для составления robots.txt используются вышеперечисленные директивы и спет символы по следующему принципу:
- Указывается имя робота для которого пишется список правил
(User-agent: * - правило для всех роботов) - Пишется перечень запрещенных разделов сайта для указанного робота
( Disallow: / - запрет индексации всего сайта) - Пишется перечень разрешённых разделов сайта
(Allow: /home/ — разрешен раздел home) - Указывается имя сайта
(Host: crazysquirrel.ru — основное имя сайта crazysquirrel.ru) - Указывается абсолютный путь до файла sitemap.xml
(Sitemap: https:// crazysquirrel.ru/sitemap.xml)
Если на сайте нет запрещенных разделов, то robots.txt должен состоять минимум из 4 строчек:
User-Agent: *
Allow: /
Host: crazysquirrel.ru
Sitemap: https://crazysquirrel.ru/sitemap.xml
Проверить robots.txt и то, как он влияет на индексацию сайта можно с помощью инструментов Яндекса