Начну с того, что нет какого-то одного правильного или неправильного файла wp robots txt.
Есть единый базовый шаблон под определённую систему администрирования, где дальше необходимо добавлять директивы под ваши требования, которые зависят от целей сайта и его структуры.
Файл robots.txt должен быть на каждом сайте и сообщать поисковому роботу, куда можно ходить, а куда нельзя.
Робот Яндекса и Google знакомы с этим файлом.
Подробнее можно прочитать в их документации.
Общие сведения о файлах robots.txt: https://support.google.com/webmasters/answer/6062608?hl=ru
Использование файла robots.txt: https://yandex.ru/support/webmaster/controlling-robot/robots-txt.html
В данном ниже примере я использовал классический robots для WordPress.
Две строки ниже от Woocommerce и они закрывают индексацию корзины и страницы оплаты заказа.
Данные страницы в поисковике не нужны, они технические, клиентские.
Как сделать robots.txt для сайта
Файл robotx.txt — это обычный текстовый файл, который создаётся в любом текстовом редакторе.
Можно взять совершенно обычный блокнот Windows и создать файл с расширением txt, внутри которого написать необходимые правила для вашего конкретного случая.
Минимальный набор наполненности данного файла могут быть всего несколько правил.
User-agent - используется в качестве указания, для какого поискового робота предназначены правила ниже.
Disallow - запрещает индексирование директории Allow - разрешает индексирование директории
Sitemap - указываем ссылку до файла с картой вашего сайта
Host - главный домен сайта, на котором расположен файл robots.txt
Анализ robots.txt
Правильно ли вы заполнили файл robots.txt поможет инструмент веб-мастера.
Для проверки рекомендую использовать официальные инструменты поисковых веб-мастерских — Яндекс Вебмастер и Google Webmaster.
User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Disallow: /cart
Disallow: /checkout
User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Disallow: /cart
Disallow: /checkout
User-agent: Googlebot
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Disallow: /cart
Disallow: /checkout
Host: https://<ваш домен>
Sitemap: <абсолютная ссылка на ваш sitemap.xml>
Если GoogleBot долгое время не может просканировать файл robots.txt, то есть файл отвечает 503-ошибкой, то Гугл временно перестаёт сканировать сайт.
Поэтому, обязательно следите, чтобы файл robots.txt обязательно был доступен, если он есть на сервере.
Ошибка 503 — генерируется веб-сервером и означает, что веб-сервер временно недоступен.
Чаще всего это происходит по причине перегруженности веб-сервера запросами.