Что такое дубли страниц и почему это проблема
Дубли — это две или более страницы сайта с идентичным или очень похожим контентом, доступные по разным URL. Яндекс тратит краулинговый бюджет на сканирование дублей, размывает ссылочный вес между копиями и может неправильно выбрать каноничную версию.
По нашим аудитам в Pulse Digital, дубли — вторая по частоте техническая проблема (после низкой скорости загрузки). Около 45% сайтов имеют значительные проблемы с дублированием.
Последствия:
- Размывание ссылочного веса — вместо одной сильной страницы имеем несколько слабых
- Каннибализация — дубли конкурируют друг с другом в выдаче
- Перерасход краулингового бюджета — робот сканирует мусор вместо нужных страниц
- Снижение ИКС — большое количество дублей = сигнал низкого качества
Типы дублей
Полные дубли
Страницы с абсолютно идентичным контентом по разным URL:
https://example.com/product/123
https://example.com/product/123/
https://example.com/product/123?utm_source=yandex
http://example.com/product/123
https://www.example.com/product/123
Все пять URL отдают один и тот же HTML. Для поисковика это пять разных страниц.
Частичные дубли (near-duplicates)
Страницы с очень похожим контентом, отличающиеся незначительно:
- Товар одного бренда в разных цветах (меняется только одно слово)
- Страницы пагинации с одинаковым вводным текстом
- Региональные страницы с заменой только названия города
- Страницы фильтрации с одинаковым ассортиментом
Технические дубли
Вызваны ошибками конфигурации сервера или CMS:
| Причина | Пример |
|---|---|
| HTTP/HTTPS | http:// и https:// версии |
| www/без www | www.example.com и example.com |
| Trailing slash | /page и /page/ |
| Регистр URL | /Page и /page |
| Параметры сессий | ?PHPSESSID=abc123 |
| UTM-метки | ?utm_source=yandex&utm_medium=cpc |
| Параметры сортировки | ?sort=price&order=asc |
| Индексный файл | /about/ и /about/index.php |
Как найти дубли
Способ 1: Яндекс.Вебмастер
Индексирование → Страницы в поиске → Исключённые
Фильтр по причине «Дубль» покажет страницы, которые Яндекс определил как копии. Здесь же указана каноничная версия, выбранная роботом.
Способ 2: Screaming Frog SEO Spider
- Просканируйте сайт
- Вкладка «URL» → «Duplicate» — полные дубли по контенту
- Вкладка «Content» → «Near Duplicates» — частичные дубли
- Вкладка «Canonicals» — несовпадения canonical и URL
Способ 3: Оператор site: в Яндексе
site:example.com "точная фраза из текста страницы"
Если по точной фразе находится более одного URL — это дубль.
Способ 4: Логи сервера
Анализ логов покажет, какие URL обходит робот. Если Yandex Bot сканирует URL с параметрами — это потенциальные дубли.
Методы устранения дублей
Метод 1: 301-редирект
Когда использовать: одна из версий должна быть полностью убрана, а весь вес передан основной.
# Nginx: www → без www
server {
server_name www.example.com;
return 301 https://example.com$request_uri;
}
# HTTP → HTTPS
server {
listen 80;
server_name example.com;
return 301 https://example.com$request_uri;
}
# Trailing slash: без слеша → со слешем
location ~ ^([^.]*[^/])$ {
return 301 $1/;
}
# Apache (.htaccess): www → без www
RewriteEngine On
RewriteCond %{HTTP_HOST} ^www\.example\.com [NC]
RewriteRule ^(.*)$ https://example.com/$1 [R=301,L]
Метод 2: rel="canonical"
Когда использовать: дубль нужен для пользователей (фильтры, сортировки), но не должен индексироваться как отдельная страница.
<!-- На странице-дубле -->
<link rel="canonical" href="https://example.com/catalog/phones/">
Правила:
- Canonical должен указывать на реально существующую страницу (200 OK)
- Canonical-страница не должна быть закрыта в robots.txt или иметь noindex
- Canonical может быть самоссылающимся (ссылается на саму себя) — это нормально и даже рекомендуется
- Не делайте цепочки canonical (A → B → C)
Метод 3: Clean-param в robots.txt
Когда использовать: дубли вызваны GET-параметрами (UTM, сессии, сортировки). Специфично для Яндекса.
User-agent: Yandex
Clean-param: utm_source&utm_medium&utm_campaign&utm_content&utm_term /
Clean-param: sort&order&view /catalog/
Clean-param: PHPSESSID /
Подробнее — в нашей статье о robots.txt.
Метод 4: meta noindex
Когда использовать: страница не должна быть в индексе, но нужна для пользователей.
<meta name="robots" content="noindex, follow">
noindex — не индексировать, follow — но переходить по ссылкам на странице.
Внимание: не закрывайте такие страницы в robots.txt — робот не увидит мета-тег noindex, если не сможет просканировать страницу.
Метод 5: Уникализация контента
Для частичных дублей лучшее решение — сделать контент действительно уникальным:
- Региональные страницы: уникальная статистика, кейсы, контакты
- Товары-вариации: уникальные описания для каждого варианта
- Страницы категорий: уникальные вводные тексты
Дубли по типам сайтов
Интернет-магазины
Типичные дубли:
- Товар доступен в нескольких категориях:
/phones/samsung-s26и/brands/samsung/s26 - Фильтры:
/phones/?color=black&storage=256 - Пагинация:
/phones/page/2/ - Товары-вариации: один товар в разных цветах
Решения:
- Один канонический URL для товара
- Canonical на страницах фильтрации → на основную категорию
noindex, followна глубокие комбинации фильтров- Clean-param для параметров сортировки
Блоги и контентные сайты
Типичные дубли:
- Статья в нескольких категориях
- Архивы по дате, автору, тегу — дублируют список постов
- Страницы тегов дублируют категории
Решения:
- Один канонический URL для статьи (без категории в пути)
- Noindex на архивы дат и авторов
- Объединение тегов с низким количеством постов
Сайты услуг
Типичные дубли:
- Услуга + город: одинаковый текст для всех городов (это дорвей!)
- Главная и
/index.php
Решения:
- Уникальный контент для каждого регионального URL
- Редирект с
/index.phpна/
Проверка после исправления
Чек-лист
- Просканируйте сайт Screaming Frog → проверьте вкладку Duplicates
- В Вебмастере проверьте раздел «Исключённые» → тренд по дублям
- Проверьте canonical на 10–20 страницах вручную
- Введите
site:example.comв Яндексе — количество результатов должно соответствовать реальному числу страниц - Убедитесь, что
http://,www., без слеша — все редиректят на основной формат
Мониторинг
- Еженедельно: проверяйте раздел «Исключённые» в Вебмастере
- Ежемесячно: полное сканирование через Screaming Frog
- При деплое: проверяйте, не создают ли новые функции дубли
FAQ
Canonical или 301-редирект — что лучше?
301 — если дубль не нужен пользователю (HTTP→HTTPS, www→без www). Canonical — если дубль нужен (фильтры, параметры отслеживания).
Может ли Яндекс игнорировать canonical?
Да. Canonical — рекомендация, не директива. Если Яндекс считает, что каноничная версия «хуже» дубля — может выбрать другую. Поэтому каноничная страница должна быть лучшей версией.
Сколько дублей допустимо?
Идеально — ноль. Для крупных магазинов технические дубли (параметры) неизбежны — важно управлять ими через canonical и Clean-param.
Дубли снижают позиции?
Не напрямую, но косвенно: размывание веса, каннибализация, трата краулингового бюджета. На конкурентных рынках это разница между ТОП-3 и ТОП-20.
Как понять, какой URL Яндекс считает каноничным?
В Вебмастере → «Исключённые страницы» → причина «Дубль» — указан URL, выбранный Яндексом как основной. Или через site:example.com "точная фраза" — какой URL показывается в выдаче.
Дубли — техническая проблема, которая постоянно возвращается при развитии сайта. Регулярный SEO аудит помогает держать ситуацию под контролем. Нужна профессиональная помощь? Закажите технический SEO аудит в Pulse Digital.