Правильный robots.txt

Файл robots.txt — это основной файл, описывающий правила обработки страниц поисковым роботов. Данный файл нужен для указания основного имени сайта, карты сайта (sitemap.xml), открытых и закрытых разделов сайта.
Файл robots.txt включает следующие директивы:

User-agent — директива указывающая для какого робота нижеследующие правила
- * - все роботы
- Yandex — основной робот Яндекс
- Googlebot — основной робот Google
- StackRambler — поисковый робот Рамблер
- Aport — поисковый робот Апорт
- Slurp — робот Yahoo
- MSNBot — робот MSN
Disallow — директива запрета части сайта
Allow — директива разрешения части сайта
Host — директива указания основного имени сайта
Sitemap— директива указания карты сайта (sitemap.xml)
Crawl-delay — директива указывающая сколько секунд робот может ждать ответа от сайта (необходима на сильно загруженных ресурсах, чтобы робот не посчитал сайт недоступным)
Clean-param — директива описывающая динамические параметры не влияющие на содержимое сайта

Помимо директив в robots.txt используются спец символы:

* - любай (в том числе и пустая) последовательность символов
$ — является ограничением правила

Для составления robots.txt используются вышеперечисленные директивы и спет символы по следующему принципу:

Указывается имя робота для которого пишется список правил
(User-agent: * - правило для всех роботов)
Пишется перечень запрещенных разделов сайта для указанного робота
( Disallow: / - запрет индексации всего сайта)
Пишется перечень разрешённых разделов сайта
(Allow: /home/ — разрешен раздел home)
Указывается имя сайта
(Host: crazysquirrel.ru — основное имя сайта crazysquirrel.ru)
Указывается абсолютный путь до файла sitemap.xml
(Sitemap: https:// crazysquirrel.ru/sitemap.xml)

Если на сайте нет запрещенных разделов, то robots.txt должен состоять минимум из 4 строчек:

User-Agent: *
Allow: /
Host: crazysquirrel.ru
Sitemap: https://crazysquirrel.ru/sitemap.xml

Проверить robots.txt и то, как он влияет на индексацию сайта можно с помощью инструментов Яндекса