Ошибки в управлении индексацией на WordPress приводят к тому, что до 30% краулингового бюджета тратится на мусорные страницы (архивы, теги, страницы пагинации), что замедляет индексацию новых страниц в 2-3 раза. Правильная настройка robots.txt и sitemap.xml — это не «гигиена», а инструмент приоритизации контента для поискового робота.
Robots.txt: фильтрация технического мусора
Стандартный robots.txt в WordPress часто игнорирует критические разделы. Обязательно закрывайте от индексации /wp-admin/, /wp-includes/ и страницы поиска (?s=), чтобы избежать дублей. Однако главная ошибка новичков — закрытие /wp-content/css/ и /wp-content/js/, что с 2018 года ведет к ошибкам рендеринга в Google Search Console и снижению позиций из-за некорректного анализа Core Web Vitals.
Кейс: на e-commerce проекте с 5000 товаров удаление из индекса страниц фильтрации через robots.txt сократило количество «Исключено» страниц в консоли с 12 000 до 400 за две недели, что ускорило переиндексацию основных категорий на 40%.
Экспертный вывод: используйте директиву Disallow только для технических путей. Для управления видимостью конкретных страниц используйте meta noindex, так как robots.txt запрещает сканирование, но не гарантирует исключение страницы из индекса, если на неё ведут внешние ссылки.
Sitemap.xml: стратегия управления приоритетами
Автоматические карты сайта от Yoast или Rank Math создают тысячи ссылок, включая ненужные архивы дат и теги. Оптимальный размер одной карты — до 50 000 URL или 50 МБ, но для WordPress критично исключить из sitemap.xml страницы с тегом noindex и редиректы 301. Если в карте сайта 1000 страниц, а в индексе всего 200, поисковик воспринимает сайт как низкокачественный (Low Quality Content).
Сравнение: стандартный XML-файл WP против настроенного через SEO-плагин. В первом случае индексируются все страницы, включая /wp-json/; во втором — только целевые типы записей (posts, pages, products). Это сокращает время обхода сайта роботом с 48 часов до 12 часов на средних проектах (до 10к страниц).
Экспертный вывод: удаляйте из карты сайта все страницы, которые не приносят трафик и не являются точками входа. Карта сайта должна быть «белым списком» идеального контента, а не дампом базы данных.
Управление индексацией: Noindex и Canonical
WordPress по умолчанию создает избыточную иерархию: страница автора, архивы по датам, теги. Для сайта-блога с 500 статьями может создаться до 1500 технических страниц. Решение — установка мета-тега noindex для страниц архивов и категорий, если они не оптимизированы под конкретные запросы. Это перераспределяет вес на основные статьи, повышая их позиции в ТОП-10 на 5-10% за счет устранения внутренней конкуренции.
Нюанс с Canonical: используйте self-referencing canonical для основных страниц и указывайте главную страницу категории для страниц пагинации (/page/2/, /page/3/), чтобы избежать размытия релевантности. Ошибка в настройке канонических ссылок на WP-сайтах встречается в 60% случаев при использовании кастомных тем.
Экспертный вывод: если страница не несет уникальной ценности для пользователя — она должна быть noindex. Не бойтесь уменьшать количество страниц в индексе; качество индекса важнее его объема.
Интеграция с Google Search Console и Яндекс.Вебмастером
Проверка корректности настроек через инструмент «Проверка URL» позволяет увидеть, как робот видит страницу. Часто случается конфликт: страница закрыта в robots.txt, но отмечена как noindex. В этом случае робот видит тег noindex только если страница открыта в robots.txt. Это классическая ловушка WP-администраторов, приводящая к тому, что «мусорные» страницы висят в индексе месяцами.
Пример: при переезде на новый домен или смене структуры URL, ручная отправка обновленной sitemap.xml сокращает срок полной переиндексации с 30 дней до 7-10 дней. При этом важно мониторить раздел «Индексирование» на предмет всплесков 404 ошибок, которые могут возникнуть при агрессивном удалении разделов.
Экспертный вывод: robots.txt и sitemap.xml — это лишь инструкции. Единственным подтверждением успеха является отчет «Страницы» в Search Console. Проверяйте его еженедельно в первые 2 месяца после SEO-настройки.
Вывод
Для максимального результата начните с полной очистки sitemap.xml от технических страниц и настройки noindex для архивов. Избегайте закрытия CSS и JS файлов в robots.txt, так как это убивает ранжирование по поведенческим факторам и Core Web Vitals. Лучший стек для управления видимостью в 2024 году — связка Rank Math SEO (для гибкости управления индексацией) и ручной контроль через Google Search Console. Помните: чем меньше лишнего видит робот, тем быстрее и выше ранжируются ваши конверсионные страницы.