Коротко: статус «Исключены роботом» в Яндекс.Вебмастере означает, что Яндекс знает о странице, но не индексирует её из-за robots.txt, meta noindex или X-Robots-Tag. Это нормально для служебных URL (админка, корзина, личный кабинет), но критично, если закрыты коммерческие страницы. Диагностика занимает 4 шага: проверить robots.txt → мета-теги → серверные ответы → паттерны URL.
Вы открываете Яндекс.Вебмастер, переходите в раздел «Индексирование → Страницы в поиске» и видите: десятки, а то и сотни URL со статусом «Исключены роботом». Первая реакция — паника. Вторая — желание убрать все директивы из robots.txt разом. Оба варианта ошибочны. В этой статье разберём, что стоит за этим статусом, когда он безопасен, а когда требует вмешательства — и дадим алгоритм диагностики, который используем в Pulse Digital при аудитах клиентских сайтов.
Что означает статус «Исключены роботом» технически
Когда Яндекс пытается обойти страницу и встречает запрет — через robots.txt, мета-тег <meta name="robots" content="noindex"> или HTTP-заголовок X-Robots-Tag — он присваивает URL статус «Исключены роботом». Это значит, что робот знает о существовании страницы (нашёл ссылку на неё), но не может или не должен добавлять её в поисковую выдачу.
Важно понимать разницу между тремя механизмами:
- robots.txt — запрещает роботу сканировать страницу. Робот не загружает HTML, не видит контент, но URL может попасть в индекс как «известный, но не просканированный».
- meta robots noindex — робот загружает страницу, видит контент, но получает директиву не индексировать. Для её обработки страница должна быть открыта для сканирования.
- X-Robots-Tag — аналог мета-тега, но передаётся через HTTP-заголовок. Работает для любых типов файлов, включая PDF и изображения.
Статус «Исключены роботом» в Вебмастере объединяет все три случая. Чтобы понять, какой именно механизм сработал, нужно проверить конкретный URL — об этом ниже. Подробнее о работе роботов и директивах — в справке Яндекса по robots.txt.
Главное: статус «Исключены роботом» объединяет три разных механизма блокировки (robots.txt, meta noindex, X-Robots-Tag), и первый шаг — определить, какой из них сработал.
6 сценариев, когда «Исключены роботом» — это нормально
Не каждая исключённая страница — потеря. Технический сайт генерирует десятки служебных URL, которые не должны попадать в выдачу. Вот типичные случаи, когда статус ожидаем и правилен.
1. Административные и служебные страницы
Панель управления, страница входа /admin, /wp-login.php, /bitrix/admin/ — всё это должно быть закрыто. Если такие URL отображаются как «Исключены роботом», значит, ваш robots.txt работает корректно.
2. Корзина и оформление заказа
Страницы /cart, /checkout, /order не несут поисковой ценности. Более того, их индексация может создавать дубли (каждая сессия — уникальный URL с параметрами) и снижать краулинговый бюджет. Закрытие через robots.txt или noindex — стандартная практика. О том, как бороться с дублями из-за GET-параметров, мы подробно писали в статье про дубли, GET-параметры и canonical.
3. Личный кабинет пользователя
Любые URL за авторизацией: /account, /profile, /my-orders. Яндекс всё равно не сможет увидеть персонализированный контент, а попытки индексации создадут страницы с сообщением «Войдите в аккаунт» — бесполезный мусор в выдаче.
4. Версии для печати
Если сайт генерирует URL вида /page?print=1 или /page/print/, они дублируют основную страницу. Закрытие от индексации предотвращает каннибализацию — ситуацию, когда печатная версия конкурирует с основной в выдаче.
5. Результаты внутреннего поиска
Страницы /search?q=... — классический пример бесконечной генерации URL. Каждый запрос пользователя создаёт уникальный адрес с тонким или дублирующим контентом. Яндекс прямо рекомендует закрывать такие страницы.
6. Тестовые и staging-URL
Поддомены вроде dev.site.ru, test.site.ru или URL с параметрами ?preview=true. Если они попали в Вебмастер и отображаются как исключённые — это правильно. Проблема возникнет, если они не исключены и начнут конкурировать с продакшн-версиями.
Общий принцип: если страница не предназначена для поисковой выдачи — статус «Исключены роботом» подтверждает, что всё настроено верно.
Главное: служебные, технические и дублирующие URL должны быть исключены — статус подтверждает, что настройки работают корректно.
5 сценариев, когда статус — сигнал тревоги
Теперь к ситуациям, где каждый день промедления стоит трафика и заявок.
1. Исключены страницы товаров или услуг
Если коммерческие страницы — карточки товаров, описания услуг — попали в список исключённых, это прямая потеря видимости. Причины бывают разные: неаккуратное правило в robots.txt с широкой маской, случайный noindex в шаблоне CMS, ошибка при деплое. Результат один — страницы не участвуют в ранжировании.
2. Исключены страницы категорий
Категории каталога часто собирают больше трафика, чем отдельные товары, — по среднечастотным и высокочастотным запросам. Их исключение обрушивает целые кластеры семантики. Типичная причина: правило Disallow: /*? в robots.txt, которое закрывает не только параметры сортировки, но и сами категории, если CMS генерирует их с GET-параметрами.
3. Исключены основные посадочные страницы
Лендинги под рекламу, ключевые разделы сайта, страница «О компании» с коммерческими факторами. Если они исключены — проверяйте немедленно. Мы встречали случаи, когда после редизайна новый шаблон содержал <meta name="robots" content="noindex, nofollow"> в базовом layout, и весь сайт выпадал из индекса за 2–3 недели. Если параллельно работает реклама в Директе, стоит также проверить, не нарушена ли связка с посадочной страницей.
4. Страницы, которые раньше были в индексе
Вебмастер показывает историю индексации. Если URL был проиндексирован, приносил трафик, а затем получил статус «Исключены роботом» — значит, что-то изменилось. Возможные причины:
- Обновление robots.txt с новым правилом
- Деплой с ошибкой в мета-тегах
- Изменение конфигурации сервера (nginx/Apache), добавившее X-Robots-Tag
- Плагин безопасности, закрывший часть URL
5. Массовый рост числа исключённых страниц
Если вчера было 50 исключённых URL, а сегодня — 500, это не постепенная индексация новых служебных страниц. Это инцидент. Чаще всего причина — изменение в robots.txt, которое затронуло широкий паттерн URL. Реже — обновление CMS или плагина, добавившего noindex глобально.
Главное: если исключены коммерческие страницы, лендинги или наблюдается резкий рост количества исключённых URL — это инцидент, требующий немедленной диагностики.
Алгоритм диагностики за 4 шага
Когда вы обнаружили подозрительные URL со статусом «Исключены роботом», действуйте последовательно. Ниже — алгоритм, который мы в Pulse Digital используем при технических аудитах.
Шаг 1. Проверьте robots.txt
Откройте https://ваш-сайт.ru/robots.txt и найдите правила Disallow. Обратите внимание на:
- Широкие маски:
Disallow: /*?закроет все URL с параметрами, включая потенциально важные. - Вложенные директории:
Disallow: /catalog/закроет всё внутри — и фильтры, и категории, и карточки. - Конфликтующие директивы: если есть
Allow: /catalog/shoes/иDisallow: /catalog/, порядок и специфичность правил имеют значение. - Разные User-agent: правила для
Yandexмогут отличаться от*. Проверяйте секцию, адресованную именно Яндексу.
Используйте инструмент «Анализ robots.txt» в самом Вебмастере: вставьте проблемный URL и посмотрите, какое правило срабатывает.
| Что проверить | Где смотреть | Частая ошибка |
|---|---|---|
| Disallow с широкой маской | robots.txt, секция Yandex | Disallow: /*? блокирует нужные страницы |
| Конфликт Allow / Disallow | robots.txt | Allow не перекрывает Disallow из-за длины маски |
| Clean-param | robots.txt | Забытая директива от предыдущего разработчика |
| Sitemap | robots.txt | Указан старый URL карты сайта |
Шаг 2. Проверьте мета-теги и X-Robots-Tag
Откройте проблемную страницу в браузере и проверьте исходный код. Ищите:
<meta name="robots" content="noindex">
<meta name="robots" content="noindex, nofollow">
Если в HTML ничего нет — проверьте HTTP-заголовки. Откройте DevTools (F12) → вкладка Network → перезагрузите страницу → кликните на основной документ → Headers. Ищите заголовок X-Robots-Tag. Он может содержать noindex и при этом быть невидимым в HTML-коде.
Частая ситуация: noindex установлен условно — например, только для неавторизованных пользователей или при определённом User-Agent. Проверяйте страницу именно так, как её видит робот: через инструмент «Проверить URL» в Вебмастере или через curl:
curl -A "Mozilla/5.0 (compatible; YandexBot/3.0)" -I https://ваш-сайт.ru/проблемная-страница/
Шаг 3. Проверьте серверные ответы
Иногда страница отдаёт код 403 или 401 для определённых User-Agent, и робот интерпретирует это как запрет. Проверьте:
- Код ответа сервера для URL (должен быть 200 для индексируемых страниц)
- Нет ли редиректа на страницу авторизации
- Не блокирует ли CDN или WAF (Web Application Firewall) запросы от ботов
- Не отдаёт ли сервер разный контент в зависимости от IP или User-Agent (клоакинг — даже непреднамеренный — приводит к проблемам)
Шаг 4. Проверьте паттерны Disallow
Этот шаг — аналитический. Выгрузите список всех исключённых URL из Вебмастера и найдите общий паттерн:
- Все URL содержат
/filter/? Проблема в правиле для фильтров. - Все URL из одного раздела
/blog/? Возможно, закрыт весь раздел. - Все URL содержат параметр
?page=? Пагинация закрыта слишком агрессивно. - URL разнородные, но появились в один день? Ищите изменение в robots.txt или деплой в этот день.
Этот шаг помогает перейти от «у нас проблема» к «у нас конкретная проблема с конкретным правилом».
Главное: диагностика «Исключены роботом» — это последовательная проверка robots.txt, мета-тегов, серверных ответов и поиска общего паттерна среди проблемных URL.
Обезличенный пример из практики
К нам обратился клиент — интернет-магазин строительных материалов с каталогом на ~3 000 позиций. За две недели трафик из Яндекса снизился на 35 %. В Вебмастере мы увидели, что количество URL со статусом «Исключены роботом» выросло с 200 до 1 800.
Что произошло: при обновлении CMS разработчик добавил в базовый шаблон условие — для страниц, у которых не заполнено поле «SEO-описание» в админке, автоматически проставлялся <meta name="robots" content="noindex">. Логика была в том, чтобы «не показывать неготовые страницы». Проблема в том, что у 60 % карточек товаров поле SEO-описания было пустым — это были старые товары, импортированные из 1С без метаданных.
Диагностика по нашему алгоритму:
- robots.txt — чисто, изменений не было.
- meta robots — обнаружен noindex на карточках товаров. В шаблоне нашли условие.
- Серверные ответы — 200, всё корректно.
- Паттерн — все исключённые URL были карточками из каталога, раздел
/product/.
Решение:
- Убрали условный noindex из шаблона
- Добавили fallback-генерацию SEO-описания из названия товара и категории
- Запросили переобход через Вебмастер для приоритетных категорий
- Настроили мониторинг: еженедельная проверка количества исключённых URL
Через 10 дней после исправления Яндекс начал возвращать страницы в индекс. Полное восстановление трафика заняло около 4 недель.
Главное: в реальном кейсе причиной массового исключения 1 600 страниц стал условный noindex в шаблоне CMS — проблема нашлась на шаге 2 алгоритма, а трафик восстановился за 4 недели.
Что делать после исправления
Устранить причину — половина дела. Вторая половина — убедиться, что исправления подхвачены Яндексом, и защитить себя от повторения. Если сайт запущен недавно, эти шаги совпадают с чеклистом первых 30 дней после запуска.
Запросите переобход
В Вебмастере перейдите в «Индексирование → Переобход страниц» и добавьте исправленные URL. Лимит — 20 URL в день для обычных сайтов. Если исправленных страниц сотни — приоритизируйте:
- Страницы с наибольшим трафиком до инцидента
- Категории верхнего уровня
- Страницы, на которые ведёт реклама
Подробнее об инструменте — в справке Вебмастера о переобходе страниц.
Обновите sitemap.xml
Убедитесь, что все исправленные URL присутствуют в карте сайта с актуальной датой <lastmod>. Это подскажет роботу, что страницы изменились и их стоит пересканировать.
Настройте мониторинг
Не ждите следующего инцидента. Внедрите регулярную проверку:
- Еженедельно: количество исключённых URL в Вебмастере. Резкий рост — повод для немедленного анализа.
- При каждом деплое: автоматический чек robots.txt на наличие новых правил Disallow.
- Ежемесячно: сверка количества страниц в индексе с количеством страниц в sitemap.xml.
Документируйте robots.txt
Добавьте комментарии к каждому правилу — зачем оно добавлено и когда. Это поможет следующему разработчику (или вам через полгода) не удалить нужное правило и не добавить конфликтующее.
# Закрываем внутренний поиск — бесконечная генерация URL (добавлено 2025-03)
Disallow: /search/
# Закрываем параметры сортировки, но оставляем фильтры
Disallow: /*?sort=
Проверьте пре-продакшн
Если на проекте есть staging-среда, добавьте в CI/CD-пайплайн проверку: сканирование шаблонов на наличие noindex в мета-тегах. Простой grep по шаблонам при каждом деплое обойдётся в минуту настройки и сэкономит недели восстановления трафика.
Главное: после исправления запросите переобход приоритетных URL, обновите sitemap.xml и внедрите мониторинг, чтобы предотвратить повторение.
Часто задаваемые вопросы
Статус «Исключены роботом» и «Не индексируется» — это одно и то же?
Нет. «Исключены роботом» — частный случай статуса «Не индексируется». Он означает, что именно директива робота (robots.txt, meta noindex или X-Robots-Tag) стала причиной отказа от индексации. Другие причины статуса «Не индексируется» — это, например, дубли, низкое качество контента или слишком глубокая вложенность URL. Чтобы разобраться с дублями, рекомендуем статью про GET-параметры, сортировку и canonical.
Через сколько времени Яндекс уберёт страницу из «Исключены роботом» после исправления?
Обычно от 3 дней до 6 недель. Скорость зависит от частоты обхода вашего сайта, количества страниц и общего доверия к домену. Ускорить процесс можно через инструмент «Переобход страниц» в Вебмастере (до 20 URL в день). Для крупных сайтов с сотнями исправленных страниц полное восстановление индексации может занять 4–6 недель.
Может ли Яндекс проиндексировать страницу, закрытую в robots.txt?
Да, может. Robots.txt — это рекомендация, а не запрет. Если на страницу ведут внешние ссылки, Яндекс может показать URL в выдаче, но без сниппета (описания). Для полной блокировки индексации используйте meta noindex — но для этого страница должна быть открыта для сканирования (не заблокирована в robots.txt), чтобы робот мог прочитать мета-тег.
Нужно ли закрывать страницы пагинации от индексации?
Не рекомендуется закрывать пагинацию целиком. Страницы пагинации (/catalog/?page=2, /catalog/?page=3) помогают роботу обнаружить глубокие URL каталога. Лучше установить canonical на первую страницу категории и оставить пагинацию открытой для сканирования. Если закрыть пагинацию в robots.txt, робот не сможет добраться до товаров со второй страницы и далее.
Как отличить, заблокирована страница через robots.txt или через meta noindex?
Используйте инструмент «Проверить URL» в Яндекс.Вебмастере — он покажет, какое именно правило сработало. Альтернативный способ: откройте страницу через curl с User-Agent Яндекса. Если robots.txt блокирует сканирование, робот даже не увидит содержимое страницы. Если страница открыта для сканирования, но содержит meta noindex — робот её загрузит, увидит директиву и исключит из индекса.
Влияет ли большое количество «Исключены роботом» на общее ранжирование сайта?
Само по себе — нет. Большое количество исключённых служебных URL — норма для крупных сайтов. Проблема возникает, когда среди исключённых оказываются коммерчески важные страницы. Также стоит следить за соотношением: если из 1 000 URL в sitemap 800 исключены — это сигнал о системной ошибке в настройках. Проверьте, не осталась ли директива Disallow: / с тестового сервера, как описано в чеклисте первых 30 дней.
Резюме
Статус «Исключены роботом» — не приговор и не ошибка сам по себе. Это инструмент контроля: он показывает, какие страницы Яндекс не может индексировать. Задача — убедиться, что в этом списке только те URL, которые действительно не должны быть в поиске.
Если вы обнаружили подозрительные страницы — пройдите 4 шага диагностики. Если хотите передать аудит профессионалам — в рамках SEO-продвижения мы в Pulse Digital проверяем индексацию как часть регулярного технического мониторинга.