Правильный файл robots.txt для моего сайта

Начну с того, что нет какого-то одного правильного или неправильного файла wp robots txt.

Есть единый базовый шаблон под определённую систему администрирования, где дальше необходимо добавлять директивы под ваши требования, которые зависят от целей сайта и его структуры.

Файл robots.txt должен быть на каждом сайте и сообщать поисковому роботу, куда можно ходить, а куда нельзя.

Робот Яндекса и Google знакомы с этим файлом.

Подробнее можно прочитать в их документации.

Общие сведения о файлах robots.txt: https://support.google.com/webmasters/answer/6062608?hl=ru

Использование файла robots.txt: https://yandex.ru/support/webmaster/controlling-robot/robots-txt.html

В данном ниже примере я использовал классический robots для WordPress.

Две строки ниже от Woocommerce и они закрывают индексацию корзины и страницы оплаты заказа.

Данные страницы в поисковике не нужны, они технические, клиентские.

Как сделать robots.txt для сайта

Файл robotx.txt — это обычный текстовый файл, который создаётся в любом текстовом редакторе.

Можно взять совершенно обычный блокнот Windows и создать файл с расширением txt, внутри которого написать необходимые правила для вашего конкретного случая. 

Минимальный набор наполненности данного файла могут быть всего несколько правил.

User-agent - используется в качестве указания, для какого поискового робота предназначены правила ниже.
Disallow - запрещает индексирование директории Allow - разрешает индексирование директории

Sitemap - указываем ссылку до файла с картой вашего сайта
Host - главный домен сайта, на котором расположен файл robots.txt

Анализ robots.txt

Правильно ли вы заполнили файл robots.txt поможет инструмент веб-мастера.

Для проверки рекомендую использовать официальные инструменты поисковых веб-мастерских — Яндекс Вебмастер и Google Webmaster.

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Disallow: /cart
Disallow: /checkout

User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Disallow: /cart
Disallow: /checkout

User-agent: Googlebot
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Disallow: /cart
Disallow: /checkout

Host: https://<ваш домен>
Sitemap: <абсолютная ссылка на ваш sitemap.xml>

Если GoogleBot долгое время не может просканировать файл robots.txt, то есть файл отвечает 503-ошибкой, то Гугл временно перестаёт сканировать сайт.

ЧИТАТЬ 

Поэтому, обязательно следите, чтобы файл robots.txt обязательно был доступен, если он есть на сервере.

Ошибка 503 — генерируется веб-сервером и означает, что веб-сервер временно недоступен.

Чаще всего это происходит по причине перегруженности веб-сервера запросами.

Подробнее не официальном канале Google Webmasters
Вы это должны прочитать: